SpringBoot使用前缀树过滤敏感词的方法是什么

2023-06-26 06:21

短信预约 -IT技能 免费直播动态提醒

这篇文章跟大家分析一下“SpringBoot使用前缀树过滤敏感词的方法是什么”。内容详细易懂，对“SpringBoot使用前缀树过滤敏感词的方法是什么”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下，希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“SpringBoot使用前缀树过滤敏感词的方法是什么”的知识吧。

一、前缀树

一般设计网站的时候，会有问题发布或者是内容发布的功能，这些功能的有一个很重要的点在于如何实现敏感词过滤，要不然可能会有不良信息的发布，或者发布的内容中有夹杂可能会有恶意功能的代码片段，敏感词过滤的基本的算法是前缀树算法，前缀树也就是字典树，通过前缀树匹配可以加快敏感词匹配的速度。

前缀树又称为Trie、字典树、查找树。主要特点是：查找效率高，但内存消耗大；主要应用于字符串检索、词频统计、字符串排序等。

到底什么是前缀树？前缀树的功能是如何实现的？

举一个具体的例子：若有一个字符串"xwabfabcff"，敏感词为"abc"、"bf"、"be"，检测字符串，若有敏感词，则将敏感词替换为"*"，实现一个算法。

前缀树的特点：

1. 跟结点为空结点，没有任何字符。

2. 除了根节点以外，每个结点只有一个字符。

3. 每个结点包含的子节点不相同。例如，root的子节点本来有两个b，但我们只保留一个

4. 在每个敏感词的末尾结点做一个标记，表示从根节点到此节点组合成的字符串是一个敏感词，中间未被标记的结点和根节点中间的字符串不构成一个敏感词。

SpringBoot使用前缀树过滤敏感词的方法是什么

前缀树的算法逻辑：

1. 准备：我们需要三个指针，①指针指向前缀树，默认指向根节点； ②、③指针指向要检测的字符串(同向尺距法，②从头到尾走一遍，标记敏感词的开头，③随着②而动，标记敏感词的结尾)，默认指向字符串的第一个字符。我们还需要一个存放检测结果的字符串(StringBuilder)。

2. ①访问树的第一层，发现没有'x'，则②、③向下走一步，并将'x'存入StringBuilder字符串里。'w' 同理。

SpringBoot使用前缀树过滤敏感词的方法是什么

3. 此时②、③指向'a'，①访问树的第一层，发现有'a'，但'a'未被标记，所以不是敏感词，则把'a'存入StringBuilder字符串。然后②不动，①、③继续向下走，直至走到被标记的结点或者不匹配时，①归位，②向下走一步，③回到此时②指向的地方。重复以上步骤。

4. 若检测到敏感词，则在StringBuilder中存储"***"，并使②跳过此敏感词，②、③共同指向原来③的下一个位置。

SpringBoot使用前缀树过滤敏感词的方法是什么

5. ②、③走到字符串的末尾时，检测完成。最终结果为"xwa******ff"。

二、敏感词过滤器

我们再开发项目时，需要开发出一个可复用的过滤敏感词的工具，成为敏感词过滤器，以便在项目中可以复用。

开发敏感词过滤器主要有以下三个步骤：

定义前缀树

根据敏感词，初始化前缀树

编写过滤敏感词的方法

代码实现如下：

import org.apache.commons.lang3.CharUtils;import org.apache.commons.lang3.StringUtils;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springframework.stereotype.Component; import javax.annotation.PostConstruct;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.util.HashMap;import java.util.Map; @Componentpublic class SensitiveFilter {     // 记录日志    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);     // 替换符    private static final String REPLACEMENT = "***";     // 初始化根节点    private TrieNode rootNode = new TrieNode();         @PostConstruct// 当容器在服务器启动时实例化此Bean，调用Bean的构造方法后，该方法就会被自动调用    public void init() {        try (                // 加载敏感词文件 sensitive-words.txt是自建的存放敏感词的文件                InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");                // 字节流 -->  字符流 --> 字符缓冲流                BufferedReader reader = new BufferedReader(new InputStreamReader(is));        ) {            String keyword;            while((keyword = reader.readLine()) != null){                // 添加到前缀树，addKeyword为自定义的方法，将一个敏感词添加到前缀树中去                this.addKeyword(keyword);            }         } catch (IOException e) {            logger.error("加载敏感词文件失败:" + e.getMessage());        }     }     // 封装方法：将一个敏感词添加到前缀树中去    private void addKeyword(String keyword){        TrieNode tempNode = rootNode;        for (int i = 0; i < keyword.length(); i++) {            char c = keyword.charAt(i);            TrieNode subNode = tempNode.getSubNode(c);             if(subNode == null){                // 如果子节点中没有该字符，则以此字符初始化子节点，并装配到树中                subNode = new TrieNode();                tempNode.addSubNode(c,subNode);            }             // 指向字节点，进入下一层循环            tempNode = subNode;             // 设置结束标识            if(i == keyword.length() -1){                tempNode.setKeywordEnd(true);            }        }    }         public String filter(String text){        if(StringUtils.isBlank(text)){            return null;        }         // 指针①        TrieNode tempNode = rootNode;        // 指针②        int begin = 0;        // 指针③        int position = 0;        // 存放结果        StringBuilder sb = new StringBuilder();         while(position < text.length()){            char c = text.charAt(position);             // 跳过符号            if(isSymbol(c)){                // 若指针①处于根节点，将此符号计入结果，让指针②向下走一步                if(tempNode == rootNode){                    sb.append(c);                    begin++;                }                // 无论符号在未检测时出现还是正在检测时出现，指针③总是向下走一步                // （未检测时和指针②一起向下走一步，检测时指针②不动，指针③向下走一步）                position++;                continue;            }             // 检查下级节点            tempNode = tempNode.getSubNode(c);            if(tempNode == null){                // 以begin开头的字符串不是敏感词                sb.append(text.charAt(begin));                // 进入下一个位置                begin++;                position = begin;                // 指针①归位，重新指向根节点                tempNode = rootNode;            }else if (tempNode.isKeywordEnd()){                // 发现敏感词，将begin~position字符串替换掉                sb.append(REPLACEMENT);                // 进入下一个位置                position++;                begin = position;                // 指针①归位，重新指向跟接待你                tempNode = rootNode;            }else {                // 检查下一个字符                position++;            }        }        // 将最后一批字符计入结果：指针③比指针②先到中终点，且两者之间的字符串不是敏感词        sb.append(text.substring(begin));         return sb.toString();    }     // 封装方法：判断是否为特殊符号    private boolean isSymbol(Character c){        // 0x2E80~0x9FFF 是东亚文字范围，不予当作特殊符号看待        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);    }         private class TrieNode {         // 敏感词（关键词）结束标识        private boolean isKeywordEnd = false;         // 子节点（key是下级字符，value是下级节点）        private Map<Character, TrieNode> subNodes = new HashMap<>();         public boolean isKeywordEnd() {            return isKeywordEnd;        }         public void setKeywordEnd(boolean keywordEnd) {            isKeywordEnd = keywordEnd;        }         // 添加子节点        public void addSubNode(Character c, TrieNode node) {            subNodes.put(c, node);        }         // 获取子节点        public TrieNode getSubNode(Character c) {            return subNodes.get(c);        }    } }

springboot是什么

springboot一种全新的编程规范，其设计目的是用来简化新Spring应用的初始搭建以及开发过程，SpringBoot也是一个服务于框架的框架，服务范围是简化配置文件。

关于SpringBoot使用前缀树过滤敏感词的方法是什么就分享到这里啦，希望上述内容能够让大家有所提升。如果想要学习更多知识，请大家多多留意小编的更新。谢谢大家关注一下编程网网站！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

SpringBoot使用前缀树过滤敏感词的方法是什么

下载Word文档到电脑，方便收藏和打印～

下载Word文档

SpringBoot使用前缀树过滤敏感词的方法是什么

一、前缀树

二、敏感词过滤器

springboot是什么

SpringBoot使用前缀树过滤敏感词的方法是什么

相关文章

猜你喜欢

SpringBoot使用前缀树过滤敏感词的方法是什么

SpringBoot使用前缀树过滤敏感词的方法实例

JAVA使用前缀树(Tire树)实现敏感词过滤、词典搜索

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

SpringBoot使用前缀树过滤敏感词的方法是什么

一、前缀树

二、敏感词过滤器

springboot是什么

SpringBoot使用前缀树过滤敏感词的方法是什么

相关文章

猜你喜欢

SpringBoot使用前缀树过滤敏感词的方法是什么

SpringBoot使用前缀树过滤敏感词的方法实例

JAVA使用前缀树(Tire树)实现敏感词过滤、词典搜索

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复