首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将数据从AWS 3桶同步到Azure data 2的最佳方法是什么

将数据从AWS 3桶同步到Azure data 2的最佳方法是什么
EN

Stack Overflow用户
提问于 2021-03-14 16:21:47
回答 2查看 1.1K关注 0票数 1

目前,我使用: S3将csv文件从AWS S3下载到本地计算机。现在,我想使用相同的进程将文件从AWS同步到Azure Data Gen2 (单向同步)。注意:我只有S3数据源的读取/下载权限。

我想出了解决这个问题的五条潜在途径:

  1. 在Azure中使用AWS命令。如果不运行Azure VM,我不完全确定如何做到这一点。另外,我想让我的AWS配置文件凭证持久化吗?
  2. 使用Python的subprocess库运行AWS命令。我遇到了与选项1类似的问题,即:( a)维护AWS CLI的持久安装;( b)传递AWS配置文件凭据;( c)在没有Azure VM的情况下运行。
  3. 使用Python的Boto3库访问AWS服务。在过去,Boto3似乎不支持AWS sync命令。因此,像@raydel这样的开发者开发了自己的软件。[见https://stackoverflow.com/questions/53517519/sync-two-buckets-through-boto3]。但是,现在看来有一个用于DataSync的Boto3类。[见https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/datasync.html]。我仍然需要在Azure VM中运行这个程序,还是可以使用Azure?
  4. 使用Azure从AWS S3桶复制数据。[参见使用Azure数据工厂从Amazon简单存储服务复制数据]我担心的是我会想要同步而不是复制。我相信Azure Data有检查文件是否已经存在的功能,但是如果文件已经从AWS S3数据源中删除了怎么办?
  5. 使用Azure数据科学虚拟机来: a)安装AWS,2)创建我的AWS来存储访问凭据,3)运行aws s3 sync...命令。

任何关于自动化这个过程的提示、建议或想法都会受到极大的赞赏。

EN

回答 2

Stack Overflow用户

发布于 2021-03-15 06:14:24

在列表中再添加一个:) 6.请同时查看Azcopy选项。https://learn.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-s3?toc=/azure/storage/blobs/toc.json

我不知道任何帮助同步数据的工具,或多或少都会复制,我认为你必须实现它。几个快速的想法。#3 )您可以从批处理服务中运行此操作。您可以从Azure数据工厂中激发这一点。此外,由于讨论的是Python,所以您也可以从Azure数据块中运行它。

4) ADF对于要删除的文件没有任何同步逻辑。我们可以使用getMetadat活动来实现这一点。https://learn.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity

票数 0
EN

Stack Overflow用户

发布于 2021-03-15 13:43:44

AzReplciate是另一种选择--特别是对于非常大的容器,https://learn.microsoft.com/en-us/samples/azure/azreplicate/azreplicate/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66626810

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档