理论上说,将数据集分解为三组:训练集用于训练模型,验证集用于调整参数,测试集用于评估性能。
但是,已经有GridSearchCV对训练集进行交叉验证以找到最优参数。但是,如何使用自己的验证集来优化参数呢?
我有10个班,对于火车数据,每个班有1017个样本。在验证和测试集中,我为每个类提供了300个样本。
我对我的机密数据进行了培训。
clf = RandomForestClassifier(random_state=97)
clf.fit(train, np.array(train_lab)) 如何使用验证集优化参数?我只找到了GridSearchCV作为交叉验证的例子。但是,我想避免它,并在我自己的验证集上调优模型。我该怎么做呢?
发布于 2017-05-13 18:17:01
可以将交叉验证对象传递到GridSearchCV中。传入一个PredefinedSplit对象,它允许您决定培训和验证集是什么。
https://stackoverflow.com/questions/43954890
复制相似问题