首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tesseract 3中字典的强度

Tesseract 3中字典的强度
EN

Stack Overflow用户
提问于 2012-01-20 19:34:51
回答 2查看 1.8K关注 0票数 10

如何在tesseract 3中增加/减少字典的强度?

在常见问题解答中,我需要更改"NON_WERD“和"GARBAGE_STRING”的值,但它们在Tesseract 3中不存在。

EN

回答 2

Stack Overflow用户

发布于 2012-11-26 06:51:41

根据http://code.google.com/p/tesseract-ocr/wiki/FAQ,您可以更改以下变量:

代码语言:javascript
复制
enable_new_segsearch    1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3

增加它们的值以使Tesseract更偏向于字典中的单词。

注意:您必须设置enable_new_segsearch,否则设置为they'll have no effect

票数 4
EN

Stack Overflow用户

发布于 2013-07-05 22:55:01

要完全改变tesseract的语言识别能力,可以运行以下每一个命令:

代码语言:javascript
复制
tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");

或者,为了更好的控制,只需要其中的一部分。(我不知道有哪个地方能很好地解释它们的作用,但它们的名称很容易解释)这是我当前项目中的代码,使用Tess4J,但您可以很容易地将它们转换为c++或配置文件或任何您需要的文件。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8940795

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档