我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何用Python清理文本数据?

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何用Python清理文本数据?

因为格式非常多样,从一个数据到另一个数据,所以将这些数据预处理为计算机可读的格式是非常必要的。

在本文中,将展示如何使用Python预处理文本数据,我们需要用到 NLTK 和 re-library 库。

 

 

过程

1.文本小写

在我们开始处理文本之前,最好先将所有字符都小写。我们这样做的原因是为了避免区分大小写的过程。

假设我们想从字符串中删除停止词,正常操作是将非停止词合并成一个句子。如果不使用小写,则无法检测到停止词,并将导致相同的字符串。这就是为什么降低文本大小写这么重要了。

用Python实现这一点很容易。代码是这样的:

 

  1. # 样例 
  2. x = "Watch This Airport Get Swallowed Up By A Sandstorm In Under A Minute http://t.co/TvYQczGJdy" 
  3. # 将文本小写 
  4. x = x.lower() 
  5. print(x) 
  6. >>> watch this airport get swallowed up by a sandstorm in under a minute http://t.co/tvyqczgjdy 

 

2.删除 Unicode 字符

一些文章中可能包含 Unicode 字符,当我们在 ASCII 格式上看到它时,它是不可读的。大多数情况下,这些字符用于表情符号和非 ASCII 字符。要删除该字符,我们可以使用这样的代码:

 

  1. # 示例 
  2. x = "Reddit Will Now Quarantine‰Û_ http://t.co/pkUAMXw6pm #onlinecommunities #reddit #amageddon #freespeech #Business http://t.co/PAWvNJ4sAP" 
  3. # 删除 unicode 字符 
  4. x = x.encode('ascii''ignore').decode() 
  5. print(x) 
  6. >>> Reddit Will Now Quarantine_ http://t.co/pkUAMXw6pm #onlinecommunities #reddit #amageddon #freespeech #Business http://t.co/PAWvNJ4sAP 

 

3.删除停止词

停止词是一种对文本意义没有显著贡献的词。因此,我们可以删除这些词。为了检索停止词,我们可以从 NLTK 库中下载一个资料库。以下为实现代码:

 

  1. import nltk 
  2. nltk.download() 
  3. # 只需下载所有nltk 
  4. stop_words = stopwords.words("english"
  5. # 示例 
  6. x = "America like South Africa is a traumatised sick country - in different ways of course - but still messed up." 
  7. # 删除停止词 
  8. x = ' '.join([word for word in x.split(' ') if word not in stop_words]) 
  9. print(x) 
  10. >>> America like South Africa traumatised sick country - different ways course - still messed up. 

 

4.删除诸如提及、标签、链接等术语。

除了删除 Unicode 和停止词外,还有几个术语需要删除,包括提及、哈希标记、链接、标点符号等。

要去除这些,如果我们仅依赖于已经定义的字符,很难做到这些操作。因此,我们需要通过使用正则表达式(Regex)来匹配我们想要的术语的模式。

Regex 是一个特殊的字符串,它包含一个可以匹配与该模式相关联的单词的模式。通过使用名为 re. 的 Python 库搜索或删除这些模式。以下为实现代码:

 

  1. import re 
  2. # 删除提及 
  3. x = "@DDNewsLive @NitishKumar  and @ArvindKejriwal can't survive without referring @@narendramodi . Without Mr Modi they are BIG ZEROS" 
  4. x = re.sub("@\S+"" ", x) 
  5. print(x) 
  6. >>>      and   can't survive without referring   . Without Mr Modi they are BIG ZEROS 
  7. # 删除 URL 链接 
  8. x = "Severe Thunderstorm pictures from across the Mid-South http://t.co/UZWLgJQzNS" 
  9. x = re.sub("https*\S+"" ", x) 
  10. print(x) 
  11. >>> Severe Thunderstorm pictures from across the Mid-South 
  12. # 删除标签 
  13. x = "Are people not concerned that after #SLAB's obliteration in Scotland #Labour UK is ripping itself apart over #Labourleadership contest?" 
  14. x = re.sub("#\S+"" ", x) 
  15. print(x) 
  16. >>> Are people not concerned that after   obliteration in Scotland   UK is ripping itself apart over   contest? 
  17. # 删除记号和下一个字符 
  18. x = "Notley's tactful yet very direct response to Harper's attack on Alberta's gov't. Hell YEAH Premier! http://t.co/rzSUlzMOkX #ableg #cdnpoli" 
  19. x = re.sub("\'\w+", '', x) 
  20. print(x) 
  21. >>> Notley tactful yet very direct response to Harper attack on Alberta gov. Hell YEAH Premier! http://t.co/rzSUlzMOkX #ableg #cdnpoli 
  22. # 删除标点符号 
  23. x = "In 2014 I will only smoke crqck if I becyme a mayor. This includes Foursquare." 
  24. x = re.sub('[%s]' % re.escape(string.punctuation), ' ', x) 
  25. print(x) 
  26. >>> In 2014 I will only smoke crqck if I becyme a mayor. This includes Foursquare. 
  27. # 删除数字 
  28. x = "C-130 specially modified to land in a stadium and rescue hostages in Iran in 1980... http://t.co/tNI92fea3u http://t.co/czBaMzq3gL" 
  29. x = re.sub(r'\w*\d+\w*''', x) 
  30. print(x) 
  31. >>> C- specially modified to land in a stadium and rescue hostages in Iran in ... http://t.co/ http://t.co/ 
  32. #替换空格 
  33. x = "     and   can't survive without referring   . Without Mr Modi they are BIG ZEROS" 
  34. x = re.sub('\s{2,}'" ", x) 
  35. print(x) 
  36. >>>  and can't survive without referring . Without Mr Modi they are BIG ZEROS 

 

5.功能组合

在我们了解了文本预处理的每个步骤之后,让我们将其应用于列表。如果仔细看这些步骤,你会发现其实每个方法都是相互关联的。因此,必须将其应用于函数,以便我们可以按顺序同时处理所有问题。在应用预处理步骤之前,以下是文本示例:

 

  1. Our Deeds are the Reason of this #earthquake May ALLAH Forgive us all 
  2. Forest fire near La Ronge Sask. Canada 
  3. All residents asked to 'shelter in place' are being notified by officers. No other evacuation or shelter in place orders are expected 
  4. 13,000 people receive #wildfires evacuation orders in California  
  5. Just got sent this photo from Ruby #Alaska as smoke from #wildfires pours into a school 

 

在预处理文本列表时,我们应先执行几个步骤:

  • 创建包含所有预处理步骤的函数,并返回预处理的字符串
  • 使用名为"apply"的方法应用函数,并使用该方法将列表链接在一起。

代码如下:

 

  1. # 导入错误的情况下 
  2. # ! pip install nltk 
  3. # ! pip install textblob 
  4. import numpy as np 
  5. import matplotlib.pyplot as plt 
  6. import pandas as pd 
  7. import re 
  8. import nltk 
  9. import string 
  10. from nltk.corpus import stopwords 
  11. # # 如果缺少语料库 
  12. # 下载 all-nltk 
  13. nltk.download() 
  14. df = pd.read_csv('train.csv'
  15. stop_words = stopwords.words("english"
  16. wordnet = WordNetLemmatizer() 
  17. def text_preproc(x): 
  18.   x = x.lower() 
  19.   x = ' '.join([word for word in x.split(' ') if word not in stop_words]) 
  20.   x = x.encode('ascii''ignore').decode() 
  21.   x = re.sub(r'https*\S+'' ', x) 
  22.   x = re.sub(r'@\S+'' ', x) 
  23.   x = re.sub(r'#\S+'' ', x) 
  24.   x = re.sub(r'\'\w+''', x) 
  25.   x = re.sub('[%s]' % re.escape(string.punctuation), ' ', x) 
  26.   x = re.sub(r'\w*\d+\w*''', x) 
  27.   x = re.sub(r'\s{2,}'' ', x) 
  28.   return x 
  29. df['clean_text'] = df.text.apply(text_preproc) 

 

 

上面的文本预处理结果如下:

  1. deeds reason may allah forgive us 
  2. forest fire near la ronge sask canada 
  3. residents asked place notified officers evacuation shelter place orders expected 
  4.  people receive evacuation orders california  
  5. got sent photo ruby smoke pours school 

最后

以上内容就是使用 Python 进行文本预处理的具体步骤,希望能够帮助大家用它来解决与文本数据相关的问题,提高文本数据的规范性以及模型的准确度。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何用Python清理文本数据?

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何用Python清理文本数据?

不是所有数据格式都会采用表格格式。随着我们进入大数据时代,数据的格式非常多样化,包括图像、文本、图形等等。

Python中怎么清理文本数据

Python中怎么清理文本数据,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1.文本小写在我们开始处理文本之前,最好先将所有字符都小写。我们这样做的原因是为了避
2023-06-16

如何用python清洗文件中的数据

目录简单版使用filter读取utf-8带bom的文件多文件清洗清洗数据同时记录订单号并排序清洗sql文件,将数据表名放入excel中总结简单版直接打开日志文件,往另外一个文件中按照要过滤的要求进行过滤import io; with ope
2022-06-02

如何用 Python 清洗数据?

在做数据分析之前,我们首先要明确数据分析的目标,然后 应用数据分析的思维,对目标进行细分,再采取相应的行动。

python如何清洗数据

在Python中,可以使用各种库和工具来清洗数据。下面是一些常用的方法:1. 数据去重:使用pandas库的`drop_duplicates()`函数可以去除重复的数据行。```pythonimport pandas as pddf = p
2023-09-12

用于文本数据分析的 Pandas:使用 Str 访问器清理和操作文本数据

Pandas 中的 str 访问器提供了许多有用的字符串操作,可以应用于 Pandas 系列的每个元素。

Torch如何处理文本数据

Torch是一个用于机器学习和深度学习的开源机器学习库。在处理文本数据时,Torch可以使用其内置的文本处理模块来进行文本预处理和特征提取。以下是Torch处理文本数据的一般步骤:读取文本数据:首先,需要将文本数据加载到Torch中。可以使
Torch如何处理文本数据
2024-03-08

怎么使用Python处理文本数据

本篇内容介绍了“怎么使用Python处理文本数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!用python处理文本数据实验目的熟悉pyth
2023-07-02

Python如何实现数据清洗

小编给大家分享一下Python如何实现数据清洗,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!数据清洗小工具箱在下面的代码片段中,数据清洗代码被封装在了一些函数中,代码的目的十分直观。你可以直接使用这些代码,无需将它们嵌入到
2023-06-28

如何清理阿里云ecs空间数据文件

本文将详细解释如何清理阿里云ecs空间数据文件。阿里云ecs是阿里云提供的一种计算服务,它可以帮助用户快速搭建和部署应用。但是,随着应用的运行,数据文件也会逐渐积累,占用过多的空间,影响应用的运行。因此,清理阿里云ecs空间数据文件是每个用户都需要了解和掌握的一项技能。正文:一、了解阿里云ecs空间数据文件在阿里
如何清理阿里云ecs空间数据文件
2023-11-15

如何清理云服务器磁盘数据文件

清理云服务器磁盘数据文件可能需要按照一定的步骤进行,以下是一些可能的步骤:查看当前可用的存储空间和网络连接:确定可以使用哪些存储空间,可以使用Memcached、Druid、Redis等工具来分配空间,或者使用第三方软件(如AWS、AzureDocker)来加速磁盘的读写和写入。检查磁盘数据文件的健康状况:查看磁盘上的文件是否有损坏、变形、格式错误等问题,及时修复或更改文件。清空C文件夹:将云服务器的文件存储在C文件夹中,可以使用F...
2023-10-27

kafka如何处理各种文本数据

Kafka本身并不处理各种文本数据,它只是一种分布式消息队列,用于可靠地传输数据。但可以使用Kafka来传输和存储各种文本数据。下面是一些使用Kafka处理各种文本数据的常见方法:1. 发送和接收文本消息:可以使用Kafka的Produce
2023-10-12

如何在Python中进行数据清洗和处理

如何在Python中进行数据清洗和处理数据清洗和处理是数据分析和挖掘过程中非常重要的一步。清洗和处理数据可以帮助我们发现数据中的问题、缺失或异常,并且为后续的数据分析和建模提供准备。本文将介绍如何使用Python进行数据清洗和处理,并提供具
2023-10-22

sql如何清理特定数据

使用sql清理特定数据的方法:确定要清理的数据。使用delete语句按条件删除数据。使用truncate语句快速删除表中所有数据(谨慎使用)。优化查询以提高效率。清理前进行数据备份。如何通过SQL清理特定数据在维护数据库时,定期清理不再需
sql如何清理特定数据
2024-06-06

redis如何清理所有数据

清理所有 redis 数据的方法:redis 2.8 及更高版本: flushall 命令删除所有键值对。redis 2.6 及更低版本: 使用 del 命令逐个删除键或使用 redis 客户端的删除方法。替代方法: 重启 redis 服务
redis如何清理所有数据
2024-06-12

sql如何清理数据库表的数据

SQL语言提供了多种方法来清理数据库表的数据,可以使用DELETE、TRUNCATE和DROP TABLE语句来删除表的数据。1. 使用DELETE语句清理表的数据:```DELETE FROM 表名;```这将删除表中的所有行数据,但保留
2023-09-04

Python 文本数据预处理实践

在进行数据分析与可视化之前,得先处理好数据,而很多时候需要处理的都是文本数据,本文总结了一些文本预处理的方法。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录