我的编程空间,编程开发者的网络收藏夹
学习永远不晚

MySQL实现分词搜索(FULLTEXT)的方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

MySQL实现分词搜索(FULLTEXT)的方法

FULLTEXT

以前使用查找时都是以 %关键字% 进行模糊查询结果的,这种查询方式有一些缺点,比如不能查询多个列必须手动添加条件以实现,效率不高等
现在有一种新的查找方式可以解决以上问题,就是使用全文索引进行查找
注意:并非所有存储引擎都支持全文搜索功能。在mysql 5.6或更高版本中,只有MyISAM和InnoDB存储引擎支持全文搜索。

全文搜索的简单使用

建表添加FULLTEXT索引

使用该技术非常简单,首先需要有一张表,我建立了一张图书表并插入了两条数据

CREATE TABLE `book`  (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `book_name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `author` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `publisher` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE,
  FULLTEXT INDEX `bookname_author_publisher_fulltext`(`book_name`, `author`, `publisher`) WITH PARSER `ngram`
) ENGINE = InnoDB AUTO_INCREMENT = 3 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

在这里插入图片描述

接下来添加索引

添加FULLTEXT索引的语法是

CREATE FULLTEXT INDEX index_name ON table_name(idx_column_name,…)

但是由于我们需要分词搜索,MySQL本身不支持中文分词,所以在使用全文索引时需要引入Ngram解析器使得支持中文分词搜索(MySQL版本大于5.6),只需要在创建索引时在语句后面添加WITH PARSER NGRAM 即可
例如,创建了一个支持以书名,作者和出版社为搜索条件的全文索引语法如下
create FULLTEXT index bookname_author_publisher on book(book_name,author,publisher) WITH PARSER ngram

尝试搜索

现在,我们已经创建好了索引,它支持以书名,作者和出版社的内容进行搜索,我们尝试搜索下包含三国的数据
select * from book where MATCH(book_name,author,publisher) against(‘三国’)
结果:

在这里插入图片描述

可以看到,包含三国的数据有两条,分别是书名为三国演义和作者为张三国的数据,已经成功实现分词搜索了
需要说明的是,该Ngram解析器默认的分词长度(ngram_token_size)是2,也就是说,默认是以2个字符进行分词的,如果你只搜索1个字符的话是不会有任何结果的,但是这个值可以自定义。

  • 查看分词长度 SHOW VARIABLES LIKE ‘ngram_token_size’;
  • 修改分词长度 在MySQL的配置文件中(.ini)找到[mysqld]字样的地方,在下方添加ngram_token_size=1即可修改为支持1个字符起搜索(范围1~10)

关于MySQL的配置文件的位置,如果你是压缩包安装的应该直接就能找到,如果是通过安装程序安装的话可以从服务中找到你的MySQL服务,然后点击属性就可以看到位置了

在这里插入图片描述

结束

以上就是关于MySQL实现分词搜索的简单过程了,详细语法可以通过该网址进行学习
需要补充的是,我在学习时看到使用该索引进行全文搜索时,会应用50%阈值(50%阈值意味着如果一个单词出现在超过50%的行中,MySQL将在搜索结果中忽略它。),但是实际测试下来并没有忽略掉。
1.布尔全文搜索模式进行搜索时,不会应用50%阈值
2.按理说使用自然语言搜索进行全文搜索时会应用50%阈值,可是我实际测试并没有忽略(innoDB),后来看到一句话

这里是引用

MyISAM全文搜索会忽略至少在一半以上数据行中出现的单词(也即所谓的50%阈值),InnoDB无此限制。而在布尔全文搜索中MyISAM的50%阈值不生效。(来自https://www.likecs.com/show-374225.html?sc=8500)

这一块暂时不清楚什么情况,后续测试再更新吧

到此这篇关于MySQL实现分词搜索(FULLTEXT)的文章就介绍到这了,更多相关MySQL分词搜索内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

MySQL实现分词搜索(FULLTEXT)的方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

MySQL也可以实现分词搜索(FULLTEXT)

FULLTEXT 以前使用查找时都是以 %关键字% 进行模糊查询结果的,这种查询方式有一些缺点,比如不能查询多个列必须手动添加条件以实现,效率不高等 现在有一种新的查找方式可以解决以上问题,就是使用全文索引进行查找 注意:并非所有存储引擎都
2023-08-22

PHPCMS取消搜索时的分词功能的方法

phpcms的搜索功能相比其他CMS算是比较差的了,搜索精度非常低。虽说他有个搜索关键字分词功能,但有的时候不分词的准确度却会高于分词。如何去掉PHPCMS关闭http://www.cppcns.com搜索关键字分词功能? 用记事本打开 \
2022-06-12

Sphinx PHP 实现全文搜索的中文分词与检索优化

引言:随着互联网的发展和信息爆炸的时代,全文搜索引擎成为了人们进行信息检索的重要工具。传统的全文搜索引擎主要针对英文等西方语言进行优化,而对于中文这种特殊的语言来说,传统的全文搜索引擎存在一些问题。本文将介绍如何利用Sphinx PHP实现
2023-10-21

Sphinx 分布式搜索的 PHP 实现方法解析

引言:在当今互联网时代,搜索引擎已经成为人们获取信息的主要方式之一。为了提供更高效、更准确的搜索结果,一些大规模的网站或应用程序通常会使用分布式搜索引擎来处理搜索请求。Sphinx 是一种知名的分布式搜索引擎,具有良好的性能和扩展性。本文将
2023-10-21

dedecms按栏目分类搜索功能的实现方法

复制代码代码如下:

搜索

2022-06-12

RiSearch PHP 与分词技术的结合实现高效中文搜索

近年来,随着互联网技术的发展,越来越多的中文内容被存储在各种类型的数据库中。然而,传统的英文搜索引擎对中文的支持相对较弱,常常存在分词错误或漏词等问题,导致搜索结果的准确性不高。为了解决这一问题,我们可以借助RiSearch PHP和分词技
2023-10-21

phpcms v9添加热门搜索关键词的方法

通过观察可以发现系统是自带了关键词模型的,只是没有实现。 或许是放在下一个版本里,呵呵~ DIY就从 /phpcms/model/keyword_model.class.php入手了。 看一下keyword_model.class.php的
2022-06-12

Xunsearch搜索的中文分词算法优化(如何优化Xunsearch的中文分词算法?)

Xunsearch中文分词算法优化策略包括:扩展分词词典、调整分词策略、使用同义词库、应用形态学分词、集成外部分词器、自主学习和性能优化。通过优化分词算法,可以提高Xunsearch搜索的效率和准确度,从而提升用户搜索体验。
Xunsearch搜索的中文分词算法优化(如何优化Xunsearch的中文分词算法?)
2024-04-02

Elasticsearch分布式搜索的近实时搜索特性分析(Elasticsearch如何实现近实时搜索?)

Elasticsearch作为分布式搜索引擎,能实现近实时搜索,让用户立即搜索新索引数据。其机制包括:实时索引、刷新机制、搜索刷新、版本控制、快照。新数据写入后,Elasticsearch会将数据刷新到磁盘,并通过搜索刷新使最新更改可被搜索,从而保证快速响应和数据一致性。但近实时搜索也存在资源消耗、数据延迟和一致性权衡等局限性,需要通过调整刷新间隔、使用搜索刷新和监控集群等最佳实践来优化性能。
Elasticsearch分布式搜索的近实时搜索特性分析(Elasticsearch如何实现近实时搜索?)
2024-04-02

python实现二叉搜索树的四种方法

本文主要介绍了python实现二叉搜索树的四种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-05-15

批量删除织梦dedecms文档搜索关键词的方法

本文实例讲述了使用SQL命令语句批量删除织梦DEDEcms搜索关键词的方法。分享给大家供大家参考。具体实现方法如下: 一、问题: 这两天准备把织梦清理维护一下,在清理的过程中发现搜索关键词维护这个功能很不好用,300多页面的搜索关键词,不能
2022-06-12

html中圆角搜索框得实现方法

这篇文章将为大家详细讲解有关html中圆角搜索框得实现方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。html中圆角搜索框的实现方法:首先创建一个HTML示例文件;然后创建一个form标签;接着定义好i
2023-06-06

Sphinx PHP 实现代码搜索的最佳实践方法

简介:Sphinx是一个开源的全文搜索引擎,它提供了高效的搜索解决方案。PHP是一种流行的服务器端脚本语言,与Sphinx结合使用,可以实现强大的代码搜索功能。本文将介绍在PHP中实现Sphinx代码搜索的最佳实践方法,并提供具体的代码示例
2023-10-21

编程热搜

目录