我已经通过客户端连接到我的远程集群,现在我正在尝试使用Dask-ml
from sklearn.ensemble import RandomForestClassifier
from sklearn.externals import joblib
#import dask_ml.joblib
clf = RandomForestClassifier(n_estimators=200, n_jobs=-1)
with joblib.parallel_backend('dask', scatter = [X,y]):
clf.fit(X,y)错误1)没有dask_ml.joblib--我得到一个模块不存在错误
错误2)如果我删除此导入,我会收到流连接关闭错误
在这方面没有看到任何好的文档。关于如何让Dask-ml与远程集群一起工作,您有什么想法吗?
发布于 2020-05-09 00:34:13
dask_ml.joblib已被删除。您现在只需要创建一个客户端并使用joblib.parallel_backend。
可能是磁盘溢出问题。尝试减小数据帧大小,并检查是否仍然存在此问题。
我知道你可能已经解决了你的问题,但这个答案可能会对其他人有所帮助。
https://stackoverflow.com/questions/60423479
复制相似问题