我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python容错的前缀树实现中文纠错

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python容错的前缀树实现中文纠错

目录
  • 介绍
  • 实现
  • 参考

介绍

本文使用 Python 实现了前缀树,并且支持编辑距离容错的查询。文中的前缀树只存储了三个分词,格式为 (分词字符串,频率) ,如:('中海晋西园', 2)、('中海西园', 24)、('中南海', 4),可以换成自己的文件进行数据的替换。在查询的时候要指定一个字符串和最大的容错编辑距离。

实现


class Word:
    def __init__(self, word, freq):
        self.word = word
        self.freq = freq

class Trie:
    def __init__(self):
        self.root = LetterNode('')
        self.START = 3

    def insert(self, word, freq):
        self.root.insert(word, freq, 0)

    def findAll(self, query, maxDistance):
        suggestions = self.root.recommend(query, maxDistance, self.START)
        return sorted(set(suggestions), key=lambda x: x.freq)


class LetterNode:
    def __init__(self, char):
        self.REMOVE = -1
        self.ADD = 1
        self.SAME = 0
        self.CHANGE = 2
        self.START = 3
        self.pointers = []
        self.char = char
        self.word = None

    def charIs(self, c):
        return self.char == c

    def insert(self, word, freq, depth):
        if ' ' in word:
            word = [i for i in word.split(' ')]
        if depth < len(word):
            c = word[depth].lower()
            for next in self.pointers:
                if next.charIs(c):
                    return next.insert(word, freq, depth + 1)
            nextNode = LetterNode(c)
            self.pointers.append(nextNode)
            return nextNode.insert(word, freq, depth + 1)
        else:
            self.word = Word(word, freq)

    def recommend(self, query, movesLeft, lastAction):
        suggestions = []
        length = len(query)

        if length >= 0 and movesLeft - length >= 0 and self.word:
            suggestions.append(self.word)

        if movesLeft == 0 and length > 0:
            for next in self.pointers:
                if next.charIs(query[0]):
                    suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    break

        elif movesLeft > 0:
            for next in self.pointers:
                if length > 0:
                    if next.charIs(query[0]):
                        suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    else:
                        suggestions += next.recommend(query[1:], movesLeft - 1, self.CHANGE)
                        if lastAction != self.CHANGE and lastAction != self.REMOVE:
                            suggestions += next.recommend(query, movesLeft - 1, self.ADD)
                        if lastAction != self.ADD and lastAction != self.CHANGE:
                            if length > 1 and next.charIs(query[1]):
                                suggestions += next.recommend(query[2:], movesLeft - 1, self.REMOVE)
                            elif length > 2 and next.charIs(query[2]) and movesLeft == 2:
                                suggestions += next.recommend(query[3:], movesLeft - 2, self.REMOVE)
                else:
                    if lastAction != self.CHANGE and lastAction != self.REMOVE:
                        suggestions += next.recommend(query, movesLeft - 1, self.ADD)
        return suggestions



def buildTrieFromFile():
    trie = Trie()
    rows = [('中海晋西园', 2),('中海西园', 24),('中南海', 4)]
    for row in rows:
        trie.insert(row[0], int(row[1]))
    return trie


def suggestor(trie, s, maxDistance):
    if ' ' in s:
        s = [x for x in s.split(' ')]
    suggestions = trie.findAll(s, maxDistance)
    return [str(x.word) for x in suggestions]


if __name__ == "__main__":
    trie = buildTrieFromFile()
    r = suggestor(trie, '中海晋西园', 1)
    print(r)

分析

结果打印:
['中海晋西园', '中海西园']

可以看出“中海晋西园”是和输入完全相同的字符串,编辑距离为 0 ,所以符合最大编辑距离为 1 的要求,直接返回。

“中海西园”是“中海晋西园”去掉“晋”字之后的结果,编辑距离为 1, 所以符合最大编辑距离为 1 的要求,直接返回。

另外,“中南海”和“中海晋西园”的编辑距离为 4 ,不符合最大编辑距离为 1 的要求,所以结果中没有出现。

参考

https://github.com/leoRoss/AutoCorrectTrie

到此这篇关于Python容错的前缀树实现中文纠错的文章就介绍到这了,更多相关Python 中文纠错内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python容错的前缀树实现中文纠错

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python容错的前缀树实现中文纠错

目录介绍实现参考介绍本文使用 Python 实现了前缀树,并且支持编辑距离容错的查询。文中的前缀树只存储了三个分词,格式为 (分词字符串,频率) ,如:('中海晋西园', 2)、('中海西园', 24)、('中南海', 4),可以换成自己的
2022-06-02

怎么用Python容错的前缀树实现中文纠错

这篇文章主要介绍“怎么用Python容错的前缀树实现中文纠错”,在日常操作中,相信很多人在怎么用Python容错的前缀树实现中文纠错问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python容错的前缀树
2023-06-20

前端项目中的Vue、React错误监听怎么实现

本篇内容介绍了“前端项目中的Vue、React错误监听怎么实现”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、 Vue 错误监听题目:如何
2023-06-30

队列在PHP与MySQL中的容错机制和故障恢复的实现方法

概述:队列是一种常用的数据结构,在计算机科学中被广泛应用。它类似于现实生活中的排队,可以按照先进先出的原则处理任务。在PHP与MySQL中使用队列可以实现一些复杂的任务调度,同时也需要考虑容错机制和故障恢复,保证系统的可靠性。本文将介绍在P
2023-10-21

深入理解Go语言文档中的log.Panic函数实现错误处理

Go语言中的log.Panic函数是一种错误处理机制,用于指示程序发生了不可恢复的错误。当Panic函数被调用时,程序会打印错误信息并停止运行。在这篇文章中,我们将深入理解Go语言文档中的log.Panic函数,并提供具体的代码示例来演示其
深入理解Go语言文档中的log.Panic函数实现错误处理
2023-11-03

学习Go语言文档中的os.Stderr.Write函数实现标准错误输出

学习Go语言文档中的os.Stderr.Write函数实现标准错误输出,需要具体代码示例在Go语言中,标准错误输出通常用于向用户报告程序中的错误信息。而os.Stderr.Write函数可以实现将错误信息输出到标准错误输出。下面我们将通过具
学习Go语言文档中的os.Stderr.Write函数实现标准错误输出
2023-11-04

python监控日志中的报错并进行邮件报警怎么实现

今天小编给大家分享一下python监控日志中的报错并进行邮件报警怎么实现的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。实现思
2023-07-02

Golang中使用RabbitMQ实现任务分发、负载均衡和容错处理的最佳策略

在Golang中使用RabbitMQ实现任务分发、负载均衡和容错处理的最佳策略通常涉及以下几个步骤:1. 创建RabbitMQ连接:使用RabbitMQ官方提供的Golang客户端库(例如github.com/streadway/amqp)
2023-10-08

Golang中使用RabbitMQ实现任务分发、负载均衡和容错处理的最佳策略

任务分发、负载均衡和容错本文探讨RabbitMQ中任务分发的策略,包括扇形交换机、主题交换机和直连交换机。此外,文章介绍负载均衡技术、消费者组和消息批处理,以及容错处理机制,如确认机制、死信队列、重试机制和高可用性。最佳策略取决于任务类型、负载、容错要求和扩展性。示例实现说明如何分配请求到微服务队列,结合了任务分发、负载均衡和容错处理。
Golang中使用RabbitMQ实现任务分发、负载均衡和容错处理的最佳策略
2024-04-13

深入理解Go语言文档中的log.Fatal函数实现致命错误日志记录

深入理解Go语言文档中的log.Fatal函数实现致命错误日志记录,需要具体代码示例在Go语言中,日志记录是一项非常重要的功能,它可以帮助开发者追踪和调试程序。Go标准库中的"log"包提供了一系列用于日志记录的函数和工具。其中,log.F
深入理解Go语言文档中的log.Fatal函数实现致命错误日志记录
2023-11-03

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录