我正试图建立一个基于大型和非常稀疏矩阵的推荐系统。该矩阵的维数大约为12000×37000,甚至可能会有更多的行数到100000行。然而,这个矩阵是非常稀疏的。在12000x37000版本中,大约0.053%的矩阵是非NA的.我试过SVD了,但是没有用。为了确保我在审理过程中没有造成任何错误:
拆分成测试和验证集,将"NA“替换为0,减去每一行的行表示,将"svd”包中的propack.svd应用到该矩阵中,乘以propack交付的三个矩阵,并将行表示添加到其中。(用户-手段)。
之后,我将验证集中的值与预测矩阵中的相应值进行了比较。不足为奇的是,均方根误差非常高,约为6-7(非NA值的平均值约为4.5)。我也尝试过多种形式的正常化,但我只是无法让RMSE降到5.8以下。
是否有任何方法为此数据集构建可行的项目推荐系统?可能是通过管状或聚类?
发布于 2017-09-11 23:16:46
我将研究具有R中的实施的软计算方法。它使用迭代软阈值来计算缺失值。计算使用一个名为“不完全”的矩阵类来处理大型稀疏矩阵,并允许快速计算缩放/对中行和列。
我已经成功地使用它完成了一个10,000×10,000个非常稀疏的矩阵,所以我想它应该在您的数据集中做得相当好。
https://datascience.stackexchange.com/questions/22960
复制相似问题