声明:本站文章均为作者个人原创,图片均为实际截图。如有需要请收藏网站,禁止转载,谢谢配合!!!

  • character filters
    在tokenizer之前对文本进行处理,例如删除字符、替换字符等
  • tokenizer
    将文本按照一定的规则切割成词条term,例如keyword,就是不分词,还有ik_smart
  • tokenizer filter
    将tokenizer输出的词条做进一步处理,例如大小写转换 同义词处理 拼音处理

比如

八点博客很666 -> 八点博客很棒 -> 八点 博客 很棒 -> badian boke henbang
charter filters tokenizer tokenizer filter
666 = 很棒 ik_smart pinyin 结果