如果在使用新数据更新S3位置之后立即进行读取,则无法完全从s3读取数据
我正在使用S3以拼图文件格式存储一些数据。这些数据每天更新(覆盖)几个小时后。问题在于,当s3位置正在使用新数据更新时发生读取操作时,读取操作会提供部分数据。我尝试填充不同的S3密钥,然后使用s3同步命令同步实时s3位置,但如果在s3同步期间发生读取,我仍然会遇到部分读取问题。在想这是否是将数据存储到S3的正确方法?
发布于 2019-05-22 12:41:42
您所描述的问题正是Delta Lake最近由Databricks创建并开源的问题。这应该在很大程度上解决了读取部分数据或陈旧数据的问题。
请参阅:
https://stackoverflow.com/questions/56248485
复制相似问题