位置：首页-资讯-后端开发

如何在python中使用jieba库

2023-06-07 14:36

短信预约 -IT技能 免费直播动态提醒

这篇文章将为大家详细讲解有关如何在python中使用jieba库，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

python可以做什么

Python是一种编程语言，内置了许多有效的工具，Python几乎无所不能，该语言通俗易懂、容易入门、功能强大，在许多领域中都有广泛的应用，例如最热门的大数据分析，人工智能，Web开发等。

一、jieba库概述

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供三种分词模式，最简单只需要掌握一个函数

二、jieba库安装

pip install jieba

三、jieba分词的原理

jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果

四、jieba分词的3种模式

精确模式：把文本精确地切分开，不存在冗余单词（最常用）
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式的基础上，对长词再次切分

五、jieba库常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.lcut(s,cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.add_word(s)	向分词词典增加新词w

例子：

>>> jieba.lcut("中国是一个伟大的国家")['中国', '是', '一个', '伟大', '的', '国家']>>> jieba.lcut("中国是一个伟大的国家", cut_all=True)['中国', '国是', '一个', '伟大', '的', '国家']>>> jieba.lcut_for_search("中华人民共和国是伟大的")['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

六、文本词频示例

问题分析

英文文本： Hamlet 分析词频

https://python123.io/resources/pye/hamlet.txt

中文文本：《三国演义》分析人物

https://python123.io/resources/pye/threekingdoms.txt

代码如下：

def getText(): # 打开 hamlet.txt 这个文件 txt = open("hamlet.txt", "r").read() # 避免大小写对词频统计的干扰，将所有单词转换为小写 txt = txt.lower() # 将文中出现的所有特殊字符替换为空格 for ch in '|"#$%^&*()_+-=\\`~{}[];:<>?/': txt = txt.replace(ch, " ") # 返回一个所以后单词都是小写的，单词间以空格间隔的文本 return txthamletTxt = getText()# split() 默认使用空格作为分隔符words = hamletTxt.split()counts = {}for word in words: counts[word] = counts.get(word,0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(10): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))

上面代码中的

items.sort(key=lambda x:x[1], reverse=True)

是根据单词出现的次数进行排序，其中使用了 lambda 函数。更多解释请看：
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 库来统计《三国演义》中任务出场的次数：

import jiebatxt = open("threekingdoms.txt","r",encoding="utf-8").read()words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue else: counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))

运行结果：

曹操  953孔明  836将军  772却说  656玄德  585关公  510丞相  491二人  469不可  440荆州  425玄德曰  390孔明曰  390不能  384如此  378张飞  358

我们可以看到得出的结果与我们想象的有些差异，比如

“却说”、“二人”等与人名无关
“诸葛亮”、“孔明”都是同一个人
“孔明”和“孔明曰”分词不符合我们的需求

所以我们需要对上面代码进行优化，在词频统计的基础上，面向问题改造我们的程序。

下面是《三国演义》人物数量统计代码的升级版，升级版中对于某些确定不是人名的词，即使做了词频统计，也要将它删除掉。使用寄一个集合excludes来接收一些确定不是人名但是又排序比较靠前的单词列进去。

import jiebatxt = open("threekingdoms.txt","r",encoding="utf-8").read()excludes = {"将军","却说","荆州","二人","不可","不能","如此"}words = jieba.lcut(txt)counts = {}for word in words: if len(word) == 1: continue elif word == "诸葛亮" or word == "孔明曰": rword == "孔明" elif word == "关公" or word == "云长": rword == "关羽" elif word == "玄德" or word == "玄德曰": rword == "刘备" elif word == "孟德" or word == "丞相": rword == "曹操" else: rword = word counts[rword] = counts.get(rword, 0) + 1items = list(counts.items())items.sort(key=lambda x:x[1], reverse=True)for i in range(15): word, count = items[i] print("{0:<10}{1:>5}".format(word,count))

运行结果：

曹操  963孔明  847张飞  366商议  359如何  352主公  340军士  320吕布  303左右  298军马  297赵云  283刘备  282引兵  279次日  278大喜  274

可以看出还是有像“商议”、“如何”等不是人物的词出现在统计结果，我们将这些词加入到 excludes 中，多次运行程序后最后得到《三国演义》任务出场顺序前20：

关于如何在python中使用jieba库就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

如何在python中使用jieba库

下载Word文档到电脑，方便收藏和打印～

下载Word文档

如何在python中使用jieba库

python可以做什么

一、jieba库概述

二、jieba库安装

三、jieba分词的原理

四、jieba分词的3种模式

五、jieba库常用函数

六、文本词频示例

如何在python中使用jieba库

相关文章

猜你喜欢

如何在python中使用jieba库

Python中jieba库如何使用

Python中jieba库的使用方法

关于Python中jieba库的使用

Python中jieba库的介绍与使用

python如何安装jieba库

python之jieba分词库使用

python中jieba库(中文分词库)使用安装教程

如何在python中使用matlab库

python中jieba模块怎么使用

如何在python中使用munch库

Polars库如何在python中使用

如何在python中使用gensim库

如何在Python中使用curses库

urllib库如何在python中使用

如何在python中使用gin库

如何在python中中使用excel模块库

如何在python中使用matplotlib库绘图

如何在 Django 中使用 Python 缓存库？

Python中文分词库jieba(结巴分词)详细使用介绍

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复