在Spark中,可以为RDD提供自定义的Partitioner。通常,生成的分区被随机分配给一组工作人员。例如,如果我们有20个分区和4个工作人员,每个工作人员将(大约)得到5个分区。但是,将分区放置到工人(节点)似乎是随机的,如下表所示。
trial 1 trial 2
worker 1: [10-14] [15-19]
worker 2: [5-9] [5-9]
worker 3: [0-4] [10-14]
worker 4: [15-19] [0-4] 对于单个RDD上的操作来说,这是很好的,但是当您使用跨越多个RDD的join()或cogroup()操作时,这些节点之间的通信就成了瓶颈。对于多个RDDs,我将使用相同的分区器,并希望确保它们最终位于同一个节点上,这样后续的join()就不会花费很大。是否可以控制对工作人员(节点)分区的放置?
desired
worker 1: [0-4]
worker 2: [5-9]
worker 3: [10-14]
worker 4: [15-19]发布于 2017-06-07 14:05:10
对于多个RDDs,我将使用相同的分区器,并希望确保它们最终位于同一个节点上,这样后续的join()就不会花费很大。
这是处理RDDs之间连接的正确方法,以便确保要连接的记录位于同一个分区/执行器中。
是否可以控制将分区放置到工作人员(节点)
不可能为每个分区显式指定worker节点。这将打破为Spark或任何其他并行计算框架定义的并行计算的抽象,如Map/Tez等。
Spark和其他并行计算框架被设计用于容错。因此,这意味着如果一小部分工作者节点失败,那么将被替换为其他辅助节点,这个过程对用户应用程序来说是透明的。
如果允许用户显式地引用应用程序中的工人节点,这些抽象就会中断。控制RDD分区位置的唯一方法是为RDD分区器指定您自己的分区。
https://stackoverflow.com/questions/44414292
复制相似问题