- character filters
在tokenizer之前对文本进行处理,例如删除字符、替换字符等
- tokenizer
将文本按照一定的规则切割成词条term,例如keyword,就是不分词,还有ik_smart
- tokenizer filter
将tokenizer输出的词条做进一步处理,例如大小写转换 同义词处理 拼音处理
比如
八点博客很666 | -> | 八点博客很棒 | -> | 八点 博客 很棒 | -> | badian boke henbang |
---|---|---|---|---|---|---|
charter filters | tokenizer | tokenizer filter | ||||
666 = 很棒 | ik_smart | pinyin | 结果 |