问weka:不同格式的培训和测试集(arff和文本格式)
EN

Stack Overflow用户

提问于 2014-01-14 20:25:46

回答 1查看 892关注 0票数 0

我有一个用stringtowordvector构建的arff文件，它包含一些特性，它的TFIDF鬼魂如下所示：

@relation 'sss'
-weka.filters.unsupervised.attribute.StringToWordVector-R-W100-prune-rate-1.0-C-T-I-N0-S-stemmerweka.core.stemmers.NullStemmer -tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" ؟،؛\\r\\t\\n.,;:\\\'\\\"()?!-><#$\\\%&*+/@^_=[]{}|`~0123456789\"'


@attribute @@class@@ {mis,pol}
@attribute water numeric
@attribute start numeric
@attribute government numeric

{2 0.285724,6 0.338022,7 0.517187,8 0.164801,9 ...}
{7 1.191401,8 0.560813,9 0.904039,10 0.322267....}
..
....
{0 pol,6 1.276448,36 0.702977,...}

现在我有了一个包含两个类文本的测试文件夹。(比如火车组:pol和mis )。我想对这个测试进行分类并评估我的训练集。我知道为了这个目的，我应该使用批处理过滤器，所以我读了这个链接:基于这个链接的http://weka.wikispaces.com/Use+WEKA+in+your+Java+code#Filter-Batch%20filtering，我的测试和训练集应该是相同的格式(简单文本格式)，.i不知道当我的训练集是arff格式，我的测试集是文本格式的时候。(我没有文本文件格式的训练集)

testing

weka

回答 1

Stack Overflow用户

发布于 2014-01-15 07:07:27

您可以执行以下操作：

在不应用StringToWordVector过滤器的情况下，以ARFF格式获取以前的培训集文件。
使用TextDirectoryToARFF生成测试集文件。
现在您有两个带有纯文本的ARFF文件。因此，在批处理模式下将StringToWordVector过滤器应用于两者。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21123290

复制

相似问题

问weka:不同格式的培训和测试集(arff和文本格式)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问weka:不同格式的培训和测试集(arff和文本格式)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问weka:不同格式的培训和测试集(arff和文本格式)
EN