• -------------------------------------------------------------
  • ====================================

ElasticSearch系列五:掌握ES使用IK中文分词器

elasticsearch dewbay 6年前 (2019-04-12) 3955次浏览 已收录 0个评论 扫描二维码

一、内置分词器的介绍
例:Set the shape to semi-transparent by calling set_trans(5)
standard analyzer(默认): set, the, shape, to, semi, transparent, by, calling, set_trans, 5
simple analyzer: set, the, shape, to, semi, transparent, by, calling, set, trans
whitespace analyzer: Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
language analyzer: set, shape, semi, transpar, call, set_tran, 5
二、测试分词器
GET /_analyze
{
  “analyzer”: “standard”,
  “text”: “Text to analyze”
}
三、IK中文分词
1.步骤:
git clone https://github.com/medcl/elasticsearch-analysis-ik
mvn package
将 target/releases/elasticsearch-analysis-ik-...zip 拷贝到 es/plugins/ik 目录下 在 es/plugins/ik 下对elasticsearch-analysis-ik-...zip 进行解压缩
重启 es

2.两种 analyzer
ik_max_word: 会将文本做最细粒度的拆分
ik_smart: 会做最粗粒度的拆分
3.使用
PUT /my_index 
{
 “mappings”: {
“my_type”: {
 “properties”: {
“text”: {
 “type”: “text”,
 “analyzer”: “ik_max_word”
}
 }
}
 }
}
4.测试
GET /my_index/_analyze
{
 “text”: ” 对于你,我始终只能以陌生人的身份去怀念。”,
 “analyzer”: “ik_max_word”
}
5.配置文件
IKAnalyzer.cfg.xml:用来配置自定义词库
main.dic: ik 原生内置的中文词库,总共有 27 万多条,只要是这些单词,都会被分在一起
quantifier.dic:放了一些单位相关的词
suffix.dic: 放了一些后缀
surname.dic: 中国的姓氏
stopword.dic: 英文停用词
6.添加自定义词库
IKAnalyzer.cfg.xml:ext_dict 配置项,custom/mydict.dic
  添加自定义停用词库
IKAnalyzer.cfg.xml:ext_stopwords 配置项,custom/ext_stopword.dic
7.热更新方案
第一种:修改 ik 分词器源码,然后手动支持从 mysql 中每隔一定时间,自动加载新的词库
①下载源码
https://github.com/medcl/elasticsearch-analysis-ik/tree/v6.2.4
②修改源码
Dictionary 类,169 行:Dictionary 单例类的初始化方法,在这里需要创建一个我们自定义的线程,并且启动它
HotDictReloadThread 类:就是死循环,不断调用 Dictionary.getSingleton().reLoadMainDict(),去重新加载词典
Dictionary 类,389 行:this.loadMySQLExtDict();
Dictionary 类,683 行:this.loadMySQLStopwordDict();
③mvn package 打包代码
target\releases\elasticsearch-analysis-ik-6.2.4.zip
④解压缩 ik 压缩包
将 mysql 驱动 jar,放入 ik 的目录下
⑤将 mysql 驱动 jar,放入 ik 的目录下
⑥修改 jdbc 相关配置
⑦重启 es,观察日志
⑧在 mysql 中添加词库与停用词
⑨分词实验,验证热更新生效
(点击下载已修改好的 zip 包)
第二种:基于 ik 分词器原生支持的热更新方案,部署一个 web 服务器,提供一个 http 接口,通过 modified 和 tag 两个 http 响应头,来提供词语的热更新

注:推荐用第一种。第二种 ik git 社区官方都不建议采用,觉得不太稳定。

作者:带你去学习
来源:CSDN
原文:https://blog.csdn.net/zhou870498/article/details/80501972
版权声明:本文为博主原创文章,转载请附上博文链接!


露水湾 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:ElasticSearch系列五:掌握ES使用IK中文分词器
喜欢 (6)
[]
分享 (0)
关于作者:
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址