首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对HDFS有用的拼花元数据文件?

对HDFS有用的拼花元数据文件?
EN

Stack Overflow用户
提问于 2017-05-29 07:29:09
回答 1查看 1.2K关注 0票数 1

我们使用火花来生成HDFS上的拼花文件。

火花生成4个文件,与数据拼花,和3个元数据文件.问题是,三个元数据文件占用一个块,这里是128米,当我们运行这样的许多任务时,这可能会占用大量的空间。

需要文件吗?或者这是个很好的处理方法?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-05-29 08:01:57

在拼花输出文件夹中的元数据文件是可选的,火花不需要它来读取拼花文件,因为每个拼花文件都有嵌入其中的元数据。

另一方面,thrift需要读取这些文件。

在Spark2.0中,默认情况下编写Parquet摘要文件。[参考文献]火花-15719。]

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44236852

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档