我们使用火花来生成HDFS上的拼花文件。
火花生成4个文件,与数据拼花,和3个元数据文件.问题是,三个元数据文件占用一个块,这里是128米,当我们运行这样的许多任务时,这可能会占用大量的空间。
需要文件吗?或者这是个很好的处理方法?
发布于 2017-05-29 08:01:57
在拼花输出文件夹中的元数据文件是可选的,火花不需要它来读取拼花文件,因为每个拼花文件都有嵌入其中的元数据。
另一方面,thrift需要读取这些文件。
在Spark2.0中,默认情况下编写Parquet摘要文件。[参考文献]火花-15719。]
https://stackoverflow.com/questions/44236852
复制相似问题