首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从谷歌云存储到s3的gsutil rsync在大文件上挂起

从谷歌云存储到s3的gsutil rsync在大文件上挂起
EN

Stack Overflow用户
提问于 2019-05-07 23:50:53
回答 4查看 2K关注 0票数 1

在尝试使用以下命令将我的谷歌云存储存储桶备份到亚马逊网络服务s3存储桶时,我遇到了一个较大文件(560MB)挂起的问题:

代码语言:javascript
复制
gsutil -m rsync -rd gs://<MyGoogleBucket>/ s3://<MyS3Bucket>/  

我知道连接很好,因为它复制了大约150个较小的文件(9MB),然后挂起在较大的文件上,没有明显的错误消息,只是在shell中挂起了一个进度条。

当我按ctrl-C退出程序时,我注意到几条消息:

代码语言:javascript
复制
[Errno 104] Connection reset by peer

下面是我的gsutil版本:

代码语言:javascript
复制
gsutil version: 4.38
checksum: 58d3e78c61e7e0e80813a6ebc26085f6 (OK)
boto version: 2.49.0
python version: 2.7.13 (default, Sep 26 2018, 18:42:22) [GCC 6.3.0 20170516]
OS: Linux 4.9.0-8-amd64
multiprocessing available: True
using cloud sdk: True
pass cloud sdk credentials to gsutil: True
config path(s): /etc/boto.cfg, /home/USER/.boto
gsutil path: /home/USER/google-cloud-sdk/bin/gsutil
compiled crcmod: True
installed via package manager: False
editable install: False

我已经在我的云shell和Google Compute VM上尝试过这样做

有没有人知道这个问题的修复或解决方法?提前感谢

-Nathan

EN

回答 4

Stack Overflow用户

发布于 2019-05-08 16:50:34

尽管目前尚不清楚是否真的存在错误,但在gsutil rsync上使用-m选项进行并行处理可能会影响存储之间的大规模同步行为,尤其是网络。这也可以在参考文献1中找到,其中提到:

m(多线程)选项,gsutil会消耗大量的网络带宽。在某些情况下,这可能会导致问题,例如,如果您通过网络链接启动大型rsync操作,而该网络链接也被许多其他重要作业使用。

如果问题仍然存在,您可以在不使用-m选项的情况下测试gsutil rsync,或者使用同一参考文献1中提到的替代方案。

1

票数 0
EN

Stack Overflow用户

发布于 2019-05-08 20:08:54

对于GCS中的大型对象,请使用gsutil -o选项。从文档中

https://cloud.google.com/storage/docs/gsutil/commands/cp

票数 0
EN

Stack Overflow用户

发布于 2019-05-10 23:57:23

我已经开始使用rclone,它简化了这个过程,并允许复制完成。您可以在此处找到有关使用此工具的信息:https://rclone.org/docs/

-n

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56026315

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档