python_正则_re模块

2023-01-30 23:31

短信预约 -IT技能 免费直播动态提醒

正则表达式元字符：

字符匹配：

.       ：除换行符以外的任意单个字符
[]      ：指定范围内字符
[^]     ：指定范围外字符

次数匹配：

*       ：任意次，0，1，多次
.*      ：任意字符 任意次
?       ：至多1次或0次
+       ：至少出现1次或多次
{m}     ：其前面字符出现m次
{m,n}   ：其前面字符出现至少m次，至多n次
{m,}    ：其前面字符出现至少m次
{,n}    ：其前面字符出现至多n次

位置锚定：

^       ：匹配字符串的开头
$       ：匹配字符串的末尾

分组及引用：

()      ：分组，括号内模式会被记录于正则表达式引擎
后向引用 ：\1  \2  \3.....

或：

a|b     ：a或者b
C|cat   ：C或cat
(C|c)at ：Cat或cat

转义字符：

\w      ：匹配字母数字
\W      ：匹配非字母数字
\s      ：匹配任意空白字符，等价于 [\t\n\r\f].
\S      ：匹配任意非空字符
\d      ：匹配任意数字，等价于 [0-9].
\D      ：匹配任意非数字
\A      ：匹配字符串开始
\Z      ：匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z      ：匹配字符串结束
\G      ：匹配最后匹配完成的位置。
\b      ：匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B      ：匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n      ：匹配一个换行符
\t      ：匹配一个制表符
\1...\9 ：匹配第n个分组的子表达式

小练习:

判断手机号码是否合法

根据手机号码一共11位并且是只以13、14、15、17、18开头的数字：

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15|17|18)[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')

匹配标签

import re


ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 ：h1
print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 ：<h1>hello</h1>

爬虫练习

import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

豆瓣爬电影

import re
import json
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")

count = 0
for i in range(10):
    main(count)
    count += 25

简化版

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

正则模块 _re

阅读原文内容投诉

python_正则_re模块

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

python_正则_re模块

正则表达式元字符：字符匹配：. ：除换行符以外的任意单个字符[] ：指定范围内字符[^] ：指定范围外字符次数匹配：* ：任意次，0，1，多次.* ：任意字符任意次? ：至

2023-01-30

Python_正则表达式

正则表达式：匹配字符串　　re.compile():用于编译正则表达式，生成一个正则表达式对象，供 match() 和 search() 两个函数使用，一般建议使用这种编译方式1 import re2 str = 'abc1def2ghi

2023-01-30

Python_模块介绍

模块：一组或者一个.py文件实现了某个功能的代码集合模块分为三种：自定义模块内置标准模块（又称标准库）：Python自带的模块开源模块：自己写的模块，有可以供人使用的功能开源模块的集散地：Python官网：pypi.python.org上传

2023-01-30

关于Python正则表达式模块之re模块

这篇文章主要介绍了关于Python正则表达式模块之re模块, re模块是Python中的重要组成部分，这里涉及到字符串的匹配，转换，自定义格式化等,需要的朋友可以参考下

2023-05-16

python正则表达式模块re

正则表达式的特殊元素匹配符号描述'.'(点dot)在默认模式下，它匹配除换行符之外的任何字符。如果指定了DOTALL标志，则匹配包括换行符在内的任何字符'^'(Caret)匹配以字符串开头,找到后返回匹配的字段import reprint(

2023-01-30

python3--re模块：正则表达式

怎么判断一个手机号码是否符合规范？根据手机号码一共11位并且只以13,14,15,18开头的数字这些特点，写了一段代码如下:whileTrue:phone_number=input(pleaseinputyourphonenumber:)i

2023-01-30

python re模块正则表达式

导航：1、正则表达式元字符2、预定义字符集3、re模块常用函数4、注意事项正则表达式在很多语言里都支持，python也不例外，re模块就是正则表达式的应用正则表达式对字符串的逻辑操作，主要是对字符串的一种过滤，用“元字符” 与“普通字符”组

2023-01-30

python--模块之re正则表达式

简介：正则表达式本身是一个小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，我们可以通过直接调用来实现正则匹配。正则表达式基础知识：--普通字符匹配自身 abc ----abc--元字符 . :匹配任何字符(

2023-01-30

python模块之re（正则表达式）

匹配模式re.ASCII同re.A，对应的内联标识为(?a)，用于向后兼容。使元字符\w, \W, \b, \B, \d, \D, \s和\S仅匹配ASCII字符。该模式只在string模式下有意义，在byte模式下将被忽略。re.DEBU

2023-01-31

Python的re模块正则表达式操作

这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。正则表达式使用反斜杠" "来代表特殊形式或用作转义字符，这里跟Python的语法冲突，因此，Python用" \\ "表示正则表达式中的" "，因为

2022-06-04

python模块之re正则表达式详解

一、简单介绍正则表达式是一种小型的、高度专业化的编程语言，并不是python中特有的，是许多编程语言中基础而又重要的一部分。在python中，主要通过re模块来实现。正则表达式模式被编译成一系列的字节码，然后由用c编写的匹配引擎执行。那

2022-06-04

python3 re模块正则匹配字符串中

匹配时间：# -*- coding:utf-8 -*-import redef parseDate(l): patternForTime = r'(\d{4}[\D]\d{1,2}[\D]\d{1,2}[\D]?)' for i

2023-01-31

python正则表达式re模块怎么使用

这篇文章主要介绍“python正则表达式re模块怎么使用”，在日常操作中，相信很多人在python正则表达式re模块怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python正则表达式re模块怎么使用

2023-07-02

本篇文章给大家带来了关于python的相关知识，其中主要介绍了关于正则表达式中re模块的相关问题，下面一起来看一下，希望对大家有帮助。在Python中需要通过正则表达式对字符串进⾏匹配的时候，可以使⽤⼀个python自带的模块，名字为re。正则表达式的大致匹配过程是： 1.依次拿出表达式和文本中的字符比较， 2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。 3.如果表达式中

2022-06-14

如何分析Python正则表达式re模块

本篇文章为大家展示了如何分析Python正则表达式re模块，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。简介正则表达式（regular expression）是可以匹配文本片段的模式。最简单的正则表

2023-06-17

python正则表达式(re模块)的使用详解

2024-04-02

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译