Elasticsearch 基础教程

Elasticsearch 高级教程

Elasticsearch 插件

Elasticsearch 笔记

Elasticsearch FAQ

elasticsearch 中文分词


Elasticsearch(ES)是一款流行的开源搜索引擎和分布式文档存储系统,支持多种中文分词器来处理中文文本的分词需求。

以下是一些常用的中文分词器,供您参考:

  1. IK Analyzer(IK 分词器):IK Analyzer 是 Elasticsearch 社区中最受欢迎的中文分词器之一。它使用了细粒度的字典,并且支持自定义字典,可以较好地处理不同类型的中文文本。
  2. SmartCN Analyzer(Smart 中文分词器):SmartCN 分词器也是一个常见的选择,它基于开源项目 Lucene 的中文分词模块,具有良好的性能和准确性。
  3. Jieba Analyzer(结巴分词器):Jieba 是 Python 社区中非常受欢迎的分词工具,它也有一个适用于 Elasticsearch 的分词器版本。它在分词效果和速度方面都表现不错。
  4. Pinyin Analyzer(拼音分词器):这种分词器不仅可以将中文文本分成词语,还可以生成汉字拼音。这对于拼音搜索和检索很有用。
  5. MMseg Analyzer(MMseg 分词器):MMseg 是一种基于正向最大匹配算法的中文分词方法,具有一定的分词效果和性能。
  6. Ansj Analyzer(Ansj 分词器):Ansj 是另一个基于正向最大匹配算法的中文分词工具,它具有一些定制化的功能,适用于特定的分词场景。
  7. Elasticsearch Analysis-ik(ES 原生 IK 分词器):Elasticsearch Analysis-ik 是 Elasticsearch 社区维护的 IK 分词器的官方插件,提供了在 Elasticsearch 中使用 IK 分词器的功能。
  8. 小牛分词器(小牛中文分词器):小牛分词器也是一种中文分词工具,它在某些情况下可能表现良好。

以上只是一些常见的中文分词器,您可以根据您的需求选择适合您的项目的分词器。请注意,随着时间的推移,可能会出现新的分词器或更新,建议您查阅官方文档以获取最新信息。另外,分词器的性能和适用性可能会因语料库、文本类型和其他因素而有所差异,因此最好在实际使用中进行测试和调整。

搜索中的分词器是 query 分析理解中必不可少的基本工具,市面上又非常多的开源分词工具。分词算法从最简单的最大正向、最大反向分词算法,到复 ...
elasticsearch 如何快速查看当前输入 query 或文案在 es 中的分词结果? ...
在 Python2.x 中,默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确解释汉字。 ...
在Python中,将Unicode转换为中文有多种方式,以下是其中一些常见的实现方式以及详细的步骤流程和示例代码。示例代码:###方式2:使 ...
在Java中截取中文字符串(Unicode字符)需要特殊的注意,因为中文字符可能由多个Unicode字符组成。###使用Java内置方法Ja ...