首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在位于不同地理位置的虚拟机上运行map reduce -这种设置对于hadoop群集来说有多糟糕?

在位于不同地理位置的虚拟机上运行map reduce -这种设置对于hadoop群集来说有多糟糕?
EN

Stack Overflow用户
提问于 2010-11-29 18:24:53
回答 2查看 146关注 0票数 0

正如主题所述,我需要专用硬件来运行hadoop集群而不是VM,这一点很重要吗?如果是,什么是可接受的网络延迟?您是否需要拥有千兆位以太网?我想利用hadoop来加速ETL进程。在尝试这样做的过程中,我确实设置了几个VM (512-1 1GB,双核2.2 are的每个VM 1核),它们相距约500英里,在100Mpbs以太网上的网络延迟为10-25ms。使用3-4个虚拟机作为节点时,我无法匹配ETL进程的单机性能。所以,我想我应该在这里问这个问题以获得更多的洞察力。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-12-03 21:11:05

这在很大程度上取决于您的任务,但通常都很重要-包括网络延迟、带宽、CPU负载/可用性,

我可以想象一些情况,其中网络带宽不是很重要-例如,如果您已经将数据数组加载到HDFS,即它干净地分布在所有节点上,并且您将在映射器中对此数组进行复杂的计算,而根本不使用reducers,或者将非常少的数据分流到reducers。例如,如果您要计算文本文件中的行数,映射器将读取数to的文件,并只将一个简单的数字推送到reducers行数。Reducer会将这些数字相加,并在输出中推送单个答案。它几乎不会通过网络传输=>,不会对性能产生任何影响。

然而,在现实生活中,您很少会遇到这样的任务。通常有一些组-通过在映射器和还原器之间进行,因此每个组的大部分计算由还原器执行-即还原器必须传输来自映射器的所有数据,通常大量使用网络。

如果您愿意详细介绍您的任务,我可以给出您想要使用的硬件的更详细的估计,以及当前解决方案的弱点。

票数 1
EN

Stack Overflow用户

发布于 2010-11-29 20:22:35

专用硬件总是很重要的。

您的虚拟机绝对没有足够的RAM,网络延迟将会很重要,但对于3-4个节点,100 nodes可能就足够了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4302792

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档