我有一个问题,我想使用托管Elasticsearch服务,但他们特别没有插件,我需要。插件是拼音插件,它提供了一个自定义标记器。我的想法是在插入到Elasticsearch之前,先在预处理步骤中复制这个标记化。
例如,如果我调用_analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer,我将接收输出
{
"tokens": [
{
"token": "ldh",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 1
},
{
"token": "liu",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 2
},
{
"token": "hua",
"start_offset": 0,
"end_offset": 3,
"type": "word",
"position": 4
}
]
}我有一种在预处理步骤中生成这样的标记的方法,但是是否可以将它们插入到Elasticsearch索引中呢?
发布于 2017-05-08 08:07:05
您可以创建一个标记值数组。效果是一样的。此外,如果您正在做所有的预处理,而不仅仅是标记,请使用关键字字段。否则,您的令牌将再次被单独分析。
https://stackoverflow.com/questions/43841723
复制相似问题