我的编程空间,编程开发者的网络收藏夹
学习永远不晚

零基础学习Python文本处理

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

零基础学习Python文本处理

源 | 小象     文 | 贾庸

本文将带领小伙伴们一起,使用Python进行文本处理,先来看下要处理的文本, 文件名为“data.txt”, 文件里面的内容是三行中英对照的文本,和两个空行,

我们要实现的功能就是从这三行文本中分别抽取出中文及其对应的英文,这个功能再加上爬虫,就可以制作自己专属的英语词典了,是不是很酷, 又很实

用,还等什么,赶紧上代码

1.jpg

本文要照顾到零基础的童鞋,所以要从最简单的building block 开始,先运行代码看效果

2.jpg


貌似仅仅是打印出了文本中的内容,您说对啦,就是这么简单,我们追求的效果就是万事开头简单,中间简单,结尾简单:)

虽然只有两行代码,但是对于真正零基础的童鞋,恐怕只能明白print的意思了:)

所以要逐字解释下, 首先是 open(“data.txt”),这是在告诉python,打开名为“data.txt”的 文件;打开后干什么呢?通过 for 逐行读取文件里面的内容,有的童鞋可能第 一次接触这种语法,感觉不理解,这个没关系,其实不是不理解, 而是新知识需要适应,多敲几遍代码就,每天敲一遍,不出一个星期,就会

觉得异常亲切了,不信可以试下,每天花3分钟的时间, 一个星期一共21分钟,真的有效哦。

然后就是print了,line表示的是每次读取得到的那一行内容,包括空行也算哦,print(line),就是把读取到的内容打印出来。

前面的3个知识点掌握后,童鞋们就已经是入门啦!然后就是V2,还是先看效果

3.png

有的童鞋会不禁大喊:乱码了!亲,莫慌张,这些方括号不是乱码,是语法。在Python中, 一对方括号[]表示的是一个list,对,list是论个卖的,哦,不是卖,是使用:)

 一个list可以是空的, 比如上图中就有两个是空list,也可以是包含多个元素, 比如上图中的另外3个list,每个list中包含了3个元素,在这个案例中每个元素是一个string, 用一对单引号表示string的开始和结束,有童鞋会问双引号可以吗,这个可以有:)

在同一个list中,元素与元素之间以逗号间隔。

输出的结果我们已经搞懂了,下一步就要看源码了

4.png

V2版中增加了一行,new_line,是对line进 行了两个操作(也可以理解为对line进 行了两道加 工)后得到的,也就是我们前面看到的包含了元素的list。

那么对line进行了什么操作呢?

为了说明对line进行的加 工,我们要定义一组变量,分别是空string(变量名为emptyString), 一个字符(strA),一个字符后缀一个空格(strAWithTrailingWhitespace),对这个后缀空格的string进 行rstrip()操作后得到的string(strArstriped)。是不是有点像绕口令,请不要跳过,如果临时跳过了,请再回来仔细读一遍哈,其实y就是为了体验rstrip()的功能:)

我们一个一个来看下, 首先是空string

5.png

所谓空string,就是这个string不包含任何字符,所以 长度(也就是len(emptyString))为0,print这个空string当然什么都看不到,为了让 大家能看到效果,在print的时候 又加上了一个“.”

6.png

然后是包含一个字符的string(变量名为strA),所以长度(也就是len(strA))为1,然后是print这个string再加 一个“.”

有了前面的铺垫,敲黑板的知识要来了!下 面我们要定义的这个变量是一个字符后缀(Trailing)一个空格

(Whitespace)变量名充分体现了这 一点:),所以长度为2,请注意print时,“a”与“.”之间有明显的 一个空格, 而且是可以用鼠标选中的哦


7.png

本小节最后一个变量名是strArstriped,即,对strAWithTrailingWhitespace变量进 行去后缀空格的操作得到的新变量,所以长度 又变回了1,请注意print时,“a”与“.”之间的那个空格被rstrip掉了

8.png

为了方便童鞋们理解, 用两个list分别存储未经过rstrip的原始文本,和处理后的文本,对照效果如下图所示

9.jpg

然后是split() 方法,作用就是split,将一行文本分成几个小段,默认的分隔符(delimiter)是空格(whitespace),并且会将空串从结果中删掉。效果如下

10.png

最后是最终版,listE存储英语,listC存储对应的中文

11.jpg

-END-

版权声明:本文为小象原创文章,转载请联系后台。


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

零基础学习Python文本处理

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

零基础学习Python文本处理

源 | 小象     文 | 贾庸本文将带领小伙伴们一起,使用Python进行文本处理,先来看下要处理的文本, 文件名为“data.txt”, 文件里面的内容是三行中英对照的文本,和两个空行,我们要实现的功能就是从这三行文本中分别抽取出中文
2023-01-31

Python初学者(零基础学习Pytho

Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐  本文 主要 针对 零基础 想学习Python者。本文本文由@史江歌(shijiangge@gmail.com  QQ:499065469)根据互联网
2023-01-31

python基础学习8----文件基本操

一.文件的打开,open函数f = open(file_name,mode)#创建文件对象打开模式有很多种  1. 'r': 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。  2. 'r+': 打开一个文件用于读写。文件指
2023-01-30

零基础怎么学习Python爬虫

本篇内容主要讲解“零基础怎么学习Python爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“零基础怎么学习Python爬虫”吧!  零基础如何学爬虫技术?对于迷茫的初学者来说,爬虫技术起步学习
2023-06-01

零基础如何迅速学习python?

因为目前python非常火,应用非常的广泛,是目前最火的行业之一,竞争很大,工资很高,未来发展也极好。我个人建议:如条件还可以,负担不是那么大,可以选择培训,培训一定会比你自学的好,如果培训都学好,自学肯定更难。目前python的培训费用都
2023-06-02

python基础学习15----异常处理

异常处理,是编程语言或计算机硬件里的一种机制,用于处理软件或信息系统中出现的异常状况(即超出程序正常执行流程的某些特殊条件)。1.异常的类型异常的类型多种多样,常见的异常有:AttributeError 试图访问一个对象没有的属性,比如fo
2023-01-30

《零基础入门学习Python》【第一版】

测试题答案:0. 什么是BIF?BIF 就是 Built-in Functions,内置函数。为了方便程序员快速编写脚本程序(脚本就是要编程速度快快快!!!),Python 提供了非常丰富的内置函数,我们只需要直接调用即可,例如 print
2023-01-31

Python课程学习难不难?零基础可以学习Python吗?

  零基础入门Python常见的问题有哪些?Python是一门非常不错的编程语言,而且该语言通俗易懂、容易上手,不过大家对于Python的了解并不是很多,也经常对它产生疑问。那么学习Python难不难?零基础可以学习Python吗?等等,都
2023-06-02

python培训之零基础如何学习pyth

老男孩python培训教你如何零基础学python根据TIOBE最新排名,Python已超越C#,与Java,C,C++成为全球前5大流行编程语言之一。从云端、客户端,到物联网终端,python应用无处不在。从国内的百度、阿里、腾讯、网易、
2023-01-31

小白零基础怎么系统的学习 Python

小白零基础怎么系统的学习 Python?这个话题相信困扰很多想学习python的人,今天主要给大家说下一个零基础的小白,应该如何系统化的学习python编程语言,然后找到工作,在学习的过程不浪费时间少走弯路。首先我们要了解python是什么
2023-01-31

Python基础学习教程:Python基础之基本数据类型(一)

Python基础学习教程:Python基础之基本数据类型(一)
2023-06-02

学习python技术难不难?零基础可以吗?

  python是一门高级的编程语言,拥有众多优势和特点,广受很多人喜欢。越来越多人都想要学习python,不过也非常疑惑python技术学习难不难呢?  从整体情况来说,python这门语言的就业前景是非常不错的。对比其他语言,pytho
2023-06-01

零基础如何快速学习好Python网络爬虫

Python网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习Python网络爬虫不久的同伴们。学习网络爬虫能够分三步走,如果你是大神,请直接绕走,
2023-01-31

零基础学Python:一文看懂数字和字符串

Python有几种内置的数据类型——数字、字符串、元组、列表和字典。本文将重点介绍数字和字符串。

学习shell脚本之前的基础知识[图文]

日常的linux系统管理工作中必不可少的就是shell脚本,如果不会写shell脚本,那么你就不算一个合格的管理员。目前很多单位在招聘linux系统管理员时,shell脚本的编写是必考的项目。有的单位甚至用shell脚本的编写能力来衡量这个
2022-06-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录