为什么google cloud click to deploy hadoop工作流程需要选择本地持久磁盘的大小,即使您计划将hadoop连接器用于云存储?默认大小为500 GB。我在想,如果它确实需要一些磁盘,它的大小应该小得多。在google云中使用hadoop云存储连接器时,是否有推荐的持久化磁盘大小?
“在Google Cloud平台上部署Apache Hadoop
Apache Hadoop框架支持跨计算机群集的大型数据集的分布式处理。
Hadoop将部署在单个集群中。默认部署创建1个主VM实例和2个工作VM,每个实例具有4个vCPU、15 GB内存和500 GB磁盘。创建一个临时部署协调器VM实例来管理集群设置。
Hadoop集群使用云存储存储桶作为其默认文件系统,可通过Google Cloud Storage Connector访问。访问云存储浏览器,查找或创建可在Hadoop部署中使用的存储桶。
Apache Hadoop on Google Compute Engine单击以部署Apache Hadoop Apache Hadoop ZONE us-cental1-a WORKER NODE COUNT
云存储存储桶选择存储桶HADOOP 1.2.1版主节点磁盘类型标准持久磁盘主节点磁盘大小(GB)
工作节点磁盘类型标准永久磁盘工作节点磁盘大小(GB)“
发布于 2014-11-25 02:40:13
持久性磁盘(PD)的三大用途是:
中获益更多
由于目录的布局,持久性磁盘还将用于其他项目,如作业数据(JAR、随应用程序分发的辅助数据等),但这些项目可以很容易地使用引导PD。
更大的持久磁盘几乎总是更好,这是由于GCE在磁盘大小为1.500G时扩展IOPS和吞吐量的方式。500G可能是开始分析应用程序和使用情况的一个很好的起点。如果您不使用HDFS,发现您的应用程序日志记录不多,并且在混洗时不会溢出到磁盘,那么较小的磁盘可能会工作得很好。
如果您发现实际上不需要或不需要任何持久磁盘,那么bdutil2也可以作为命令行脚本存在,它可以创建更具可配置性和可定制性的集群。
https://stackoverflow.com/questions/27089781
复制相似问题