首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在单热编码ML工作负载中,何时使用暗阵列与dask数据帧

在单热编码ML工作负载中,何时使用暗阵列与dask数据帧
EN

Stack Overflow用户
提问于 2018-02-14 22:49:32
回答 1查看 345关注 0票数 2

我有一个数据集,它是一个巨大的、短的、胖的矩阵(大约4000 x 20,000,000)。我认为dask对我来说可能是一个很好的解决方案。但是,我希望确保可以将其编码为一个单热矩阵。我查看了dask-ml中的选项,它们似乎总是需要一个dask数据帧。然而,创建一个有2000万列的数据帧似乎真的很奇怪,而且可能会导致大量开销。使用dask数组并以某种方式使用apply on axis将每一列转换为1-hot会更容易吗?谢谢你的建议。

EN

回答 1

Stack Overflow用户

发布于 2018-02-14 22:58:00

我相信dask-ml也支持dask.arrays

但是,dask-ml和dask.dataframe的算法都是跨行并行的,而不是跨列并行的,因此这两种算法可能都不是很合适。

我怀疑你的矩阵可能是非常稀疏的。无论您采用哪种方式,我都建议您查看稀疏矩阵,比如scipy.sparsesparse包中的稀疏矩阵。后一个包与dask.array兼容,后者支持沿任何维度分块,而不仅仅是行。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48789985

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档