我有5个广泛的元基因组“生态区域”类别(只要想一想,在不同的好地方的DNA ),成为他们完整的(和扩大的)元体数据的训练目标。任何标准模型工作良好,特别是随机森林,朴素贝叶斯,支持向量机,混淆矩阵是好的,和ROC罚款。这些是10E5到10E6的小数据集。
分类非常广泛,大多数预测(来自其他“生态区域”的元基因组数据)将在这些类别之间。相反,毫升会将预测“重新定位”到5个类别中的一个。因此,如果我有一个“林地”类别和一个“湖泊”类别,一个沼泽将落在“训练的分类”之间,但ML会称它为‘木头’或‘湖’。
如何通过ML达到中间的分类状态?
发布于 2022-11-04 14:36:29
这项任务应重新划分为回归或序数分类。使用生态系统隐喻,回归目标可以是覆盖在水中的地面量,或者顺序分类目标可以是按顺序排序的景观类别。
https://datascience.stackexchange.com/questions/115851
复制相似问题