首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >星火如何在加入表格时减少洗牌,当底层表格被装桶时

星火如何在加入表格时减少洗牌,当底层表格被装桶时
EN

Stack Overflow用户
提问于 2020-08-15 11:14:56
回答 1查看 129关注 0票数 1

我在多个论坛上读过这样的文章:当你的底层表被分类和排序时,Shu显着减少了排序、合并、连接。然而,我的问题如下

排序桶只会保证桶中的数据大约是同一组键,并且数据是排序的。假设我们有两个数据帧( d1和d2 ),两者都是排序和存储的。

  1. 确实保证了包含key1和key2数据的d1表的桶与包含key1和key2?

的d2表的存储在同一台机器上。

如果保证存储在同一台机器上,那么在执行排序-合并连接时,将不会出现跨节点的Exchange。如果他们能坐在不同的机器上。然后,在进行连接时应该进行数据交换。

请帮助理解这个概念。提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-08-15 16:11:03

你的理解是正确的。SortMergeJoin需要数据的RangePartitioning

如果您的数据文件df1和df2已经由键k上的RangePartitioner (也在k中使用)进行分区,那么就不会有额外的交换,否则就会有。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63425408

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档