我的编程空间,编程开发者的网络收藏夹
学习永远不晚

IK分词器的安装与使用

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

IK分词器的安装与使用

IK分词器的安装与使用

分词器

什么是IK分词器?

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,Elasticsearch的标准分词器,会将中文分为一个一个的字,而不是词,比如:“石原美里”会被分为“石”、“原”、“美”、“里”,这显然是不符合要求的,所以我们需要安装中文分词器IK来解决这个问题。

IK提供了两个分词算法:ik_smart和ik_max_word,其中ik_smart为最少切分,ik_max_word为最细力度划分。

安装IK分词器

中文分词插件IK的网址是 https://github.com/medcl/elasticsearch-analysis-ik

我们可以通过find / -name elasticsearch-plugin命令搜索elasticsearch-plugin在什么地方

安装IK时要注意将github上示例的版本改成自己的elasticsearch版本,我安装的是7.6.2,所以改成如下:

/usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

安装后重启Elasticsearch服务

我们可以通过如下命令查看安装的Elasticsearch插件

/usr/share/elasticsearch/bin/elasticsearch-plugin list

使用IK分词器

首先我们通过最ik_smart小切分来测试

接着,我们通过ik_max_word最细力度切分来测试

但是有些我们自己造的词,分词器是无法识别的(比如:白兮会被识别为两个词:白和兮),这就需要我们自己加到分词器的字典中。

通过RPM方式安装的IK扩展配置文件地址如下

vim /etc/elasticsearch/analysis-ik/IKAnalyzer.cfg.xml

现在我们在/etc/elasticsearch/analysis-ik目录下创建一个自己的词典,例如:my.dic,并在其中添加"白兮"然后保存

这里要记得将my.dic文件所属的用户和组分别改为root和elasticsearch,防止elasticsearch用户是无法读取该文件的内容的,我们可以看到默认的其它词典都是默认属于root用户和elasticsearch组的,我们把自定义的词典也改成这样

然后将我们新建的my.dic文件增加到IKAnalyzer.cfg.xml配置文件中

添加后重启Elasticsearch,然后通过kibana再重新测试,可以发现,白兮已经被识别为一个词了。

如果该文章对您有帮助,请点击推荐,感谢。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

IK分词器的安装与使用

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

IK分词器的安装与使用

分词器什么是IK分词器?分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,Elasticsearch的标准分词器,会将中文分为一个一个的字,而不是词,比如:“石原美
IK分词器的安装与使用
2019-10-07

Docker下安装Elasticsearch、ik分词器、kibana

1:使用docker拉取Elasticsearch镜像docker pull elasticsearch:7.12.0(不加版本号默认是最新版本)2:查看是否成功下载镜像docker images   3:创建elasticsearch映射本地文件mkdir
Docker下安装Elasticsearch、ik分词器、kibana
2020-05-20

python中jieba库(中文分词库)使用安装教程

这篇文章主要介绍了python中jieba库(中文分词库)使用安装教程,jieba库是通过中文词库的方式来识别分词的。它首先利用一个中文词库,通过词库计算汉字之间构成词语的关联概率,所以通过计算汉字之间的概率,就可以形成分词的结果,需要的朋友可以参考下
2023-05-17

MinIO的安装与使用

MinIO的安装与使用 一、MinIO是什么?二、MinIO安装(centos7)2.1 下载MinIO2.2 启动MinIO2.3 修改配置2.4 编写启动脚本,以及加入到systemctl中 三、Springboot集成Mi
2023-08-18

percona-toolkit的安装与使用

一、percona-toolkit的安装请参考:https://blog.csdn.net/yuanyk1222/article/details/100066788 二、下面来说说此工具的一些用法: pt-online-schema-change 功能可以在线
percona-toolkit的安装与使用
2016-05-22

gearman的安装与使用示例

Gearman是一个开源的分布式作业调度系统,可以实现分布式任务调度和并行计算。下面是Gearman的安装和使用示例:1. 安装Gearman可以通过包管理工具来安装Gearman,如apt-get、yum等。以Ubuntu为例,执行以下命
2023-08-24

Maven私库的安装与使用

Maven私库是指自己搭建的Maven仓库,用于存储和管理项目的依赖库。搭建私库可以提高项目构建的速度,并且可以方便地管理自己开发的库。下面是搭建Maven私库的步骤:1. 安装Maven首先需要安装Maven,可以从Maven官网下载二进
2023-08-25

编程热搜

目录