首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark:由S3 aws-sdk或作为RDD读取

Spark:由S3 aws-sdk或作为RDD读取
EN

Stack Overflow用户
提问于 2020-05-04 15:41:07
回答 1查看 36关注 0票数 0

我在S3中的配置文件很少(5-10个),小于5KB。这些文件可以通过使用亚马逊网络服务S3或使用RDD读取。因此,如果有10个文件,将创建10个RDD对象,并使用collect()将其转换为列表。

既然RDD是分布式的,那么使用aws-s3 Java SDK而不是RDD阅读是否可取?

EN

回答 1

Stack Overflow用户

发布于 2020-05-04 19:23:47

您应该始终倾向于将配置文件传递给spark驱动程序,然后使用python open命令本身或java读取它们,如果您使用的是aws glue。

如果您使用的是电子病历或本地集群,那么您可以使用boto3读取文件,并将其传递给驱动程序或相应的进程。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61587310

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档