我正在尝试在我正在工作的项目中使用OpenNLP,而且我对它非常陌生。我尝试将命名实体识别与http://opennlp.sourceforge.net/models-1.5/上提供的训练数据一起使用,但是我希望看到已经使用的训练数据。即实际打开.bin文件并查看其英文内容。谁能给我指个方向吗?我曾尝试使用UltraISO读取.bin文件,但没有成功。请帮帮我!谢谢:)
发布于 2014-10-01 23:40:07
使用Unix file命令查找文件类型,如file en-token.bin。对于大多数OpenNLP .bin文件,它会告诉您这些只是ZIP文件。
发布于 2014-10-01 23:49:27
bin文件实际上是表示称为NameFinderME (ME表示最大熵,这是OpenNLP中使用的主要多项逻辑回归(ish)算法)的TokenNameFinder实现的序列化java对象的字节。通过对此文件执行任何操作,您将无法看到训练数据。更正:序列化的不是名称查找器,而是namefinderMODEL。
https://stackoverflow.com/questions/26140492
复制相似问题