首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌云点击部署hadoop

谷歌云点击部署hadoop
EN

Stack Overflow用户
提问于 2014-11-23 22:03:22
回答 1查看 298关注 0票数 0

为什么google cloud click to deploy hadoop工作流程需要选择本地持久磁盘的大小,即使您计划将hadoop连接器用于云存储?默认大小为500 GB。我在想,如果它确实需要一些磁盘,它的大小应该小得多。在google云中使用hadoop云存储连接器时,是否有推荐的持久化磁盘大小?

“在Google Cloud平台上部署Apache Hadoop

Apache Hadoop框架支持跨计算机群集的大型数据集的分布式处理。

Hadoop将部署在单个集群中。默认部署创建1个主VM实例和2个工作VM,每个实例具有4个vCPU、15 GB内存和500 GB磁盘。创建一个临时部署协调器VM实例来管理集群设置。

Hadoop集群使用云存储存储桶作为其默认文件系统,可通过Google Cloud Storage Connector访问。访问云存储浏览器,查找或创建可在Hadoop部署中使用的存储桶。

Apache Hadoop on Google Compute Engine单击以部署Apache Hadoop Apache Hadoop ZONE us-cental1-a WORKER NODE COUNT

云存储存储桶选择存储桶HADOOP 1.2.1版主节点磁盘类型标准持久磁盘主节点磁盘大小(GB)

工作节点磁盘类型标准永久磁盘工作节点磁盘大小(GB)“

EN

回答 1

Stack Overflow用户

发布于 2014-11-25 02:40:13

持久性磁盘(PD)的三大用途是:

  • 日志,守护程序和作业(或YARN中的容器)
    • 在启用调试日志记录的情况下,这些日志可能会变得非常大,并可能导致每个job写入很多次

  • MapReduce shuffle
    • 这些数量可能很大,但从更高的IOPS和throughput

中获益更多

  • HDFS (映像和数据)

由于目录的布局,持久性磁盘还将用于其他项目,如作业数据(JAR、随应用程序分发的辅助数据等),但这些项目可以很容易地使用引导PD。

更大的持久磁盘几乎总是更好,这是由于GCE在磁盘大小为1.500G时扩展IOPS和吞吐量的方式。500G可能是开始分析应用程序和使用情况的一个很好的起点。如果您不使用HDFS,发现您的应用程序日志记录不多,并且在混洗时不会溢出到磁盘,那么较小的磁盘可能会工作得很好。

如果您发现实际上不需要或不需要任何持久磁盘,那么bdutil2也可以作为命令行脚本存在,它可以创建更具可配置性和可定制性的集群。

  1. https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
  2. https://cloud.google.com/hadoop/
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27089781

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档