目前,我使用: S3将csv文件从AWS S3下载到本地计算机。现在,我想使用相同的进程将文件从AWS同步到Azure Data Gen2 (单向同步)。注意:我只有S3数据源的读取/下载权限。
我想出了解决这个问题的五条潜在途径:
subprocess库运行AWS命令。我遇到了与选项1类似的问题,即:( a)维护AWS CLI的持久安装;( b)传递AWS配置文件凭据;( c)在没有Azure VM的情况下运行。sync命令。因此,像@raydel这样的开发者开发了自己的软件。[见https://stackoverflow.com/questions/53517519/sync-two-buckets-through-boto3]。但是,现在看来有一个用于DataSync的Boto3类。[见https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/datasync.html]。我仍然需要在Azure VM中运行这个程序,还是可以使用Azure?aws s3 sync...命令。任何关于自动化这个过程的提示、建议或想法都会受到极大的赞赏。
发布于 2021-03-15 06:14:24
在列表中再添加一个:) 6.请同时查看Azcopy选项。https://learn.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-s3?toc=/azure/storage/blobs/toc.json
我不知道任何帮助同步数据的工具,或多或少都会复制,我认为你必须实现它。几个快速的想法。#3 )您可以从批处理服务中运行此操作。您可以从Azure数据工厂中激发这一点。此外,由于讨论的是Python,所以您也可以从Azure数据块中运行它。
4) ADF对于要删除的文件没有任何同步逻辑。我们可以使用getMetadat活动来实现这一点。https://learn.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity
发布于 2021-03-15 13:43:44
AzReplciate是另一种选择--特别是对于非常大的容器,https://learn.microsoft.com/en-us/samples/azure/azreplicate/azreplicate/。
https://stackoverflow.com/questions/66626810
复制相似问题