我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何理解字符串匹配的Boyer-Moore算法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何理解字符串匹配的Boyer-Moore算法

这篇文章给大家介绍如何理解字符串匹配的Boyer-Moore算法,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

之前我介绍了KMP算法。

但是,它并不是效率***的算法,实际采用并不多。各种文本编辑器的"查找"功能(Ctrl+F),大多采用Boyer-Moore算法。

如何理解字符串匹配的Boyer-Moore算法

Boyer-Moore算法不仅效率高,而且构思巧妙,容易理解。1977年,德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

下面,我根据Moore教授自己的例子来解释这种算法。

如何理解字符串匹配的Boyer-Moore算法

假定字符串为"HERE IS A SIMPLE EXAMPLE",搜索词为"EXAMPLE"。

如何理解字符串匹配的Boyer-Moore算法

首先,"字符串"与"搜索词"头部对齐,从尾部开始比较。

这是一个很聪明的想法,因为如果尾部字符不匹配,那么只要一次比较,就可以知道前7个字符(整体上)肯定不是要找的结果。

我们看到,"S"与"E"不匹配。这时,"S"就被称为"坏字符"(bad character),即不匹配的字符。我们还发现,"S"不包含在搜索词"EXAMPLE"之中,这意味着可以把搜索词直接移到"S"的后一位。

如何理解字符串匹配的Boyer-Moore算法

依然从尾部开始比较,发现"P"与"E"不匹配,所以"P"是"坏字符"。但是,"P"包含在搜索词"EXAMPLE"之中。所以,将搜索词后移两位,两个"P"对齐。

如何理解字符串匹配的Boyer-Moore算法

我们由此总结出"坏字符规则"

后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

如果"坏字符"不包含在搜索词之中,则上一次出现位置为 -1。

以"P"为例,它作为"坏字符",出现在搜索词的第6位(从0开始编号),在搜索词中的上一次出现位置为4,所以后移 6 - 4 = 2位。再以前面第二步的"S"为例,它出现在第6位,上一次出现位置是 -1(即未出现),则整个搜索词后移 6 - (-1) = 7位。

如何理解字符串匹配的Boyer-Moore算法

依然从尾部开始比较,"E"与"E"匹配。

如何理解字符串匹配的Boyer-Moore算法

比较前面一位,"LE"与"LE"匹配。

如何理解字符串匹配的Boyer-Moore算法

比较前面一位,"PLE"与"PLE"匹配。

如何理解字符串匹配的Boyer-Moore算法

比较前面一位,"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"(good suffix),即所有尾部匹配的字符串。注意,"MPLE"、"PLE"、"LE"、"E"都是好后缀。

如何理解字符串匹配的Boyer-Moore算法

比较前一位,发现"I"与"A"不匹配。所以,"I"是"坏字符"。

如何理解字符串匹配的Boyer-Moore算法

根据"坏字符规则",此时搜索词应该后移 2 - (-1)= 3 位。问题是,此时有没有更好的移法?

如何理解字符串匹配的Boyer-Moore算法

我们知道,此时存在"好后缀"。所以,可以采用"好后缀规则"

后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

举例来说,如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的位置是5(从0开始计算,取***的"B"的值),在"搜索词中的上一次出现位置"是1(***个"B"的位置),所以后移 5 - 1 = 4位,前一个"AB"移到后一个"AB"的位置。

再举一个例子,如果字符串"ABCDEF"的"EF"是好后缀,则"EF"的位置是5 ,上一次出现的位置是 -1(即未出现),所以后移 5 - (-1) = 6位,即整个字符串移到"F"的后一位。

这个规则有三个注意点:

(1)"好后缀"的位置以***一个字符为准。假定"ABCDEF"的"EF"是好后缀,则它的位置以"F"为准,即5(从0开始计算)。

(2)如果"好后缀"在搜索词中只出现一次,则它的上一次出现位置为 -1。比如,"EF"在"ABCDEF"之中只出现一次,则它的上一次出现位置为-1(即未出现)。

(3)如果"好后缀"有多个,则除了最长的那个"好后缀",其他"好后缀"的上一次出现位置必须在头部。比如,假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B",请问这时"好后缀"的上一次出现位置是什么?回答是,此时采用的好后缀是"B",它的上一次出现位置是头部,即第0 位。这个规则也可以这样表达:如果最长的那个"好后缀"只出现一次,则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB",即虚拟加入最前面的"DA"。

回到上文的这个例子。此时,所有的"好后缀"(MPLE、PLE、LE、E)之中,只有"E"在"EXAMPLE"还出现在头部,所以后移 6 - 0 = 6位。

如何理解字符串匹配的Boyer-Moore算法

可以看到,"坏字符规则"只能移3位,"好后缀规则"可以移6位。所以,Boyer-Moore算法的基本思想是,每次后移这两个规则之中的较大值。

更巧妙的是,这两个规则的移动位数,只与搜索词有关,与原字符串无关。因此,可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时,只要查表比较一下就可以了。

如何理解字符串匹配的Boyer-Moore算法

继续从尾部开始比较,"P"与"E"不匹配,因此"P"是"坏字符"。根据"坏字符规则",后移 6 - 4 = 2位。

如何理解字符串匹配的Boyer-Moore算法

从尾部开始逐位比较,发现全部匹配,于是搜索结束。如果还要继续查找(即找出全部匹配),则根据"好后缀规则",后移 6 - 0 = 6位,即头部的"E"移到尾部的"E"的位置。

关于如何理解字符串匹配的Boyer-Moore算法就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何理解字符串匹配的Boyer-Moore算法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何理解字符串匹配的Boyer-Moore算法

这篇文章给大家介绍如何理解字符串匹配的Boyer-Moore算法,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。之前我介绍了KMP算法。但是,它并不是效率***的算法,实际采用并不多。各种文本编辑器的"查找"功能(Ctr
2023-06-17

如何使用java暴力匹配及KMP算法解决字符串匹配问题

这篇文章主要介绍如何使用java暴力匹配及KMP算法解决字符串匹配问题,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!要解决的问题?一、暴力匹配算法一个图例介绍KMP算法String str1 = "BBC ABCDA
2023-06-21

Python如何计算两个字符串的匹配字符的数目

Python计算字符串匹配字符数本指南介绍了3种计算Python中两个字符串匹配字符数的方法:计数循环:遍历字符串,计数匹配字符。集合和交集:使用集合交集运算获取匹配字符。Counter对象:使用Counter对象追踪字符频率,计算匹配数。方法2(集合和交集)通常最有效,尤其是在处理较长字符串时。通过选择最合适的算法,开发者可以优化性能并获得准确的结果。
Python如何计算两个字符串的匹配字符的数目
2024-04-02

Java如何计算两个字符串的匹配字符的数目

本文介绍了Java中计算两个字符串匹配字符数的多种方法,包括字符串比较、字符数组、正则表达式和第三方库。每种方法的实现、时间复杂度和空间复杂度都有所不同。根据字符串长度和性能要求,选择最合适的方法。
Java如何计算两个字符串的匹配字符的数目
2024-04-02

PHP如何计算两个字符串的匹配度

这篇文章主要讲解了“PHP如何计算两个字符串的匹配度”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“PHP如何计算两个字符串的匹配度”吧!计算两个字符串匹配度(相似度),也就是计算两个字符串的
2023-06-20

PHP如何计算两个字符串的匹配字符的数目

本文详解了PHP中计算两个字符串匹配字符数目的方法。提供多种方法,包括字符串比较函数(strcmp()、strcasecmp())、字符串遍历和比较、正则表达式,以及其他方法(levenshtein()、similar_text())。举例说明每种方法的使用,并根据实际需要指导用户选择最合适的方案。
PHP如何计算两个字符串的匹配字符的数目
2024-04-02

CC++算法题解LeetCode1408数组中的字符串匹配

这篇文章主要为大家介绍了CC++算法题解LeetCode1408数组中的字符串匹配示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2022-11-13

shell如何匹配字符串中的数字

在shell中,可以使用正则表达式来匹配字符串中的数字。可以使用grep命令来进行匹配,具体的语法如下:```shellgrep -oE '[0-9]+' 文件名```其中,`-o`参数表示只输出匹配到的内容,`-E`参数表示使用扩展正则表
2023-09-26

C语言如何计算两个字符串的匹配字符的数目

本文介绍了使用C语言计算两个字符串匹配字符数目的方法。算法包括逐字符比较,计数字符匹配,并使用strcmp()函数比较字符。示例程序演示了如何实现该算法。此外,文章还讨论了其他方法,注意事项和可能的扩展。
C语言如何计算两个字符串的匹配字符的数目
2024-04-02

Go语言如何计算两个字符串的匹配字符的数目

在Go语言中,可以通过将字符串转换为rune数组并迭代较短数组来计算两个字符串的匹配字符数。该算法的时间复杂度为O(n),其中n是较短字符串的长度,空间复杂度为O(1)。
Go语言如何计算两个字符串的匹配字符的数目
2024-04-02

sql如何匹配字符串中的某个字

在SQL中,可以使用LIKE操作符来匹配字符串中的某个字。以下是一个示例:假设有一个名为products的表,其中包含一个名为name的列,存储了产品的名称。如果想要查找包含某个特定字母的产品,可以使用以下SQL语句:SELECT *
sql如何匹配字符串中的某个字
2024-04-15

多模字符串匹配算法原理及Java实现代码

多模字符串匹配算法在这里指的是在一个字符串中寻找多个模式字符字串的问题。一般来说,给出一个长字符串和很多短模式字符串,如何最快最省的求出哪些模式字符串出现在长字符串中是我们所要思考的。该算法广泛应用于关键字过滤、入侵检测、病毒检测、分词等等
2023-05-30

Shell字符串运算符如何理解

这篇文章将为大家详细讲解有关Shell字符串运算符如何理解,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。Shell 和其他编程语言一样,支持多种运算符,包括:算数运算符、关系运算、布尔运算符
2023-06-28

PHP如何多字节字符串的正则表达式匹配

PHP多字节字符串正则匹配指南在PHP中处理多字节字符串时,正则表达式应使用特殊的考虑因素:使用mb_ereg函数系列,并指定字符串编码。修改正则表达式模式:使用字符类、边界、量词和Unicode属性。考虑编码转换以确保匹配准确性。最佳实践包括:始终指定字符集编码。根据需要修改正则表达式模式。谨慎使用Unicode属性。
PHP如何多字节字符串的正则表达式匹配
2024-04-02

Java如何多字节字符串的正则表达式匹配

本文详细介绍了如何在Java中使用正则表达式匹配多字节字符串。它涵盖了字符编码(UTF-16和UTF-8)、正则表达式匹配的注意事项、匹配示例以及最佳实践。Java中的多字节字符串匹配遵循Unicode规范和所使用的字符编码。正确理解这些概念对于确保程序精确匹配国际化文本数据至关重要。
Java如何多字节字符串的正则表达式匹配
2024-04-02

如何进行正则表达式匹配字符串的实现

如何进行正则表达式匹配字符串的实现,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。使用正则表达式最常用的是考虑实现正则表达式匹配的判断,在实际工作中经常会遇到什么
2023-06-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录