我正在为全文搜索制作一个搜索引擎,在显示描述结果时,我的性能出现了问题。我为当前的查询取得了结果,但是当我试图获取文本并突出显示关键字所在的部分时,性能就会下降。我使用pdf、txt、doc、docs、html等。所以我的搜索引擎工作如下:
索引文本
这种情况好吗。我必须搜索索引,得到文档,解析文本,得到句子,用关键字过滤句子。没有描述的搜索的性能是:
**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев** 0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906搜索关键字是以我的母语,收集的文件是3679。使用句子的描述标记,我的结果显示速度要慢10x-20倍。(比如2-3秒)。搜索是用蟒蛇做的。
有什么建议吗?
发布于 2012-05-26 09:56:30
我真的建议你看看像Elastic和Solr这样的项目(都是基于Lucene的),它们都支持你想做的事情(全文搜索,结果突出显示……)还有更多。
https://stackoverflow.com/questions/10765104
复制相似问题