首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >蜂巢索引

蜂巢索引
EN

Stack Overflow用户
提问于 2012-07-23 06:36:08
回答 1查看 2K关注 0票数 1

我在hadoop集群上有一个相当大的Hive表(大约200亿条记录),我需要对它做几个连接。

可以在键上索引这个表吗?例如,如果表名为table1,而我想在列E 110E 211上执行table1table2table3 table 4的多次连接,那么最有效的方法是什么?

如果相关表2-4相对较小(每个表约有1亿)

EN

回答 1

Stack Overflow用户

发布于 2012-07-23 12:19:06

只有在table1上有很高的选择性时,IMHO指数才会在这种情况下有所帮助。如果table1的重要部分(我推测超过1-5%)将是连接的结果,那么索引就不会有效。原因是在任何情况下你都会阅读所有的页面/块。

Hive可以决定一个表是小的,并使用它作为内存哈希表中的每个映射器执行联接,而不洗牌。https://issues.apache.org/jira/browse/HIVE-195

您还可以从这样一个事实中得到改进:在mapjoin:https://issues.apache.org/jira/browse/HIVE-917中,表是分区的。

我不确定Hive是否能够使用分区信息进行普通连接。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11607513

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档