首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >EMR工作内存使用率过高

EMR工作内存使用率过高
EN

Stack Overflow用户
提问于 2020-07-29 18:50:55
回答 1查看 43关注 0票数 0
代码语言:javascript
复制
from dask_yarn import YarnCluster
from dask.distributed import Client
 
# Create a cluster where each worker has two cores and eight GiB of memory
cluster = YarnCluster(environment='s3://openbank-ds-playground/environments/conda/gru13-07.tar.gz',
                      worker_vcores=1,
                      worker_memory="50GiB",
                      deploy_mode='local',
                      dashboard_address=':6689',
                     )

cluster.adapt(minimum=4, maximum=10)
client = Client(cluster)

大家好,我注意到我的dask应用程序中有一个奇怪的行为。我在上面通过EMR架构创建的YarnCluster中使用dask-ml运行Logistic回归,我可以看到每个worker占用的内存大约是数据集的15倍,并且我指定每个worker中只使用1个vcore。我测试过不同大小的数据集,总会遇到数据集大小10-20倍的情况。数据是通过pandas和s3fs从S3加载的。我不明白为什么会这样。你能帮我吗?

环境:

Dask版本: 2.18.0

dask_yarn版本: 0.8.1

Python版本: 3.6.10 |Anaconda,Inc.| (默认,5月8日2020,02:54:21) GCC 7.3.0

EN

回答 1

Stack Overflow用户

发布于 2020-08-08 09:00:24

由于压缩以及磁盘格式和pandas存储之间的效率差异,磁盘上的存储和内存中的存储可能会有很大的差异。

我推荐用Pandas阅读一个小样本,并用df.memory_usage(deep=True)测量它的大小,以了解哪些列占用了空间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63151951

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档