如何在tesseract 3中增加/减少字典的强度?
在常见问题解答中,我需要更改"NON_WERD“和"GARBAGE_STRING”的值,但它们在Tesseract 3中不存在。
发布于 2012-11-26 06:51:41
根据http://code.google.com/p/tesseract-ocr/wiki/FAQ,您可以更改以下变量:
enable_new_segsearch 1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3增加它们的值以使Tesseract更偏向于字典中的单词。
注意:您必须设置enable_new_segsearch,否则设置为they'll have no effect。
发布于 2013-07-05 22:55:01
要完全改变tesseract的语言识别能力,可以运行以下每一个命令:
tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");或者,为了更好的控制,只需要其中的一部分。(我不知道有哪个地方能很好地解释它们的作用,但它们的名称很容易解释)这是我当前项目中的代码,使用Tess4J,但您可以很容易地将它们转换为c++或配置文件或任何您需要的文件。
https://stackoverflow.com/questions/8940795
复制相似问题