位置：首页-资讯-后端开发

Python爬虫是什么及怎么应用

2023-07-02 18:07

短信预约 -IT技能 免费直播动态提醒

本篇内容介绍了“Python爬虫是什么及怎么应用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

Python爬虫是什么及怎么应用

爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

为什么我们要使用爬虫

互联网大数据时代，给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。
过去，我们通过书籍、报纸、电视、广播或许信息，这些信息数量有限，且是经过一定的筛选，信息相对而言比较有效，但是缺点则是信息面太过于狭窄了。不对称的信息传导，以致于我们视野受限，无法了解到更多的信息和知识。
互联网大数据时代，我们突然间，信息获取自由了，我们得到了海量的信息，但是大多数都是无效的垃圾信息。
例如新浪微博，一天产生数亿条的状态更新，而在百度搜索引擎中，随意搜一条——减肥100,000,000条信息。
在如此海量的信息碎片中，我们如何获取对自己有用的信息呢？
答案是筛选！
通过某项技术将相关的内容收集起来，在分析删选才能得到我们真正需要的信息。
这个信息收集分析整合的工作，可应用的范畴非常的广泛，无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等……都能够借助这个技术获取更精准有效的信息加以利用。
网络爬虫技术，虽说有个诡异的名字，让能第一反应是那种软软的蠕动的生物，但它却是一个可以在虚拟世界里，无往不前的利器。

爬虫准备工作

我们平时都说Python爬虫，其实这里可能有个误解，爬虫并不是Python独有的，可以做爬虫的语言有很多例如：PHP,JAVA,C#,C++,Python，选择Python做爬虫是因为Python相对来说比较简单，而且功能比较齐全。
首先我们需要下载python，我下载的是官方最新的版本 3.8.3
其次我们需要一个运行Python的环境，我用的是pychram

Python爬虫是什么及怎么应用

也可以从官方下载，
我们还需要一些库来支持爬虫的运行（有些库Python可能自带了）

Python爬虫是什么及怎么应用

差不多就是这几个库了，良心的我已经在后面写好注释了

Python爬虫是什么及怎么应用

（爬虫运行过程中，不一定就只需要上面几个库，看你爬虫的一个具体写法了，反正需要库的话我们可以直接在setting里面安装）

爬虫项目讲解

我做的是爬取豆瓣评分电影Top250的爬虫代码
我们要爬取的就是这个网站：https://movie.douban.com/top250

这边我已经爬取完毕，给大家看下效果图，我是将爬取到的内容存到xls中

Python爬虫是什么及怎么应用

我们的爬取的内容是：电影详情链接，图片链接，影片中文名，影片外国名，评分，评价数，概况，相关信息。

代码分析

先把代码发放上来，然后我根据代码逐步解析

# -*- codeing = utf-8 -*-from bs4 import BeautifulSoup  # 网页解析，获取数据import re  # 正则表达式，进行文字匹配`import urllib.request, urllib.error  # 制定URL，获取网页数据import xlwt  # 进行excel操作#import sqlite3  # 进行SQLite数据库操作findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，标售规则   影片详情链接的规则findImgclass="lazy" data-src = re.compile(r'<img.*class="lazy" data-src="(.*?)"', re.S)findTitle = re.compile(r'<span class="title">(.*)</span>')findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')findJudge = re.compile(r'<span>(\d*)人评价</span>')findInq = re.compile(r'<span class="inq">(.*)</span>')findBd = re.compile(r'<p class="">(.*?)</p>', re.S)def main():    baseurl = "https://movie.douban.com/top250?start="  #要爬取的网页链接    # 1.爬取网页    datalist = getData(baseurl)    savepath = "豆瓣电影Top250.xls"    #当前目录新建XLS，存储进去    # dbpath = "movie.db"              #当前目录新建数据库，存储进去    # 3.保存数据    saveData(datalist,savepath)      #2种存储方式可以只选择一种    # saveData2DB(datalist,dbpath)# 爬取网页def getData(baseurl):    datalist = []  #用来存储爬取的网页信息    for i in range(0, 10):  # 调用获取页面信息的函数，10次        url = baseurl + str(i * 25)        html = askURL(url)  # 保存获取到的网页源码        # 2.逐一解析数据        soup = BeautifulSoup(html, "html.parser")        for item in soup.find_all('p', class_="item"):  # 查找符合要求的字符串            data = []  # 保存一部电影所有信息            item = str(item)            link = re.findall(findLink, item)[0]  # 通过正则表达式查找            data.append(link)            imgclass="lazy" data-src = re.findall(findImgclass="lazy" data-src, item)[0]            data.append(imgclass="lazy" data-src)            titles = re.findall(findTitle, item)            if (len(titles) == 2):                ctitle = titles[0]                data.append(ctitle)                otitle = titles[1].replace("/", "")  #消除转义字符                data.append(otitle)            else:                data.append(titles[0])                data.append(' ')            rating = re.findall(findRating, item)[0]            data.append(rating)            judgeNum = re.findall(findJudge, item)[0]            data.append(judgeNum)            inq = re.findall(findInq, item)            if len(inq) != 0:                inq = inq[0].replace("。", "")                data.append(inq)            else:                data.append(" ")            bd = re.findall(findBd, item)[0]            bd = re.sub('<br(\s+)?/>(\s+)?', "", bd)            bd = re.sub('/', "", bd)            data.append(bd.strip())            datalist.append(data)    return datalist# 得到指定一个URL的网页内容def askURL(url):    head = {  # 模拟浏览器头部信息，向豆瓣服务器发送消息        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"    }    # 用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上是告诉浏览器，我们可以接收什么水平的文件内容）    request = urllib.request.Request(url, headers=head)    html = ""    try:        response = urllib.request.urlopen(request)        html = response.read().decode("utf-8")    except urllib.error.URLError as e:        if hasattr(e, "code"):            print(e.code)        if hasattr(e, "reason"):            print(e.reason)    return html# 保存数据到表格def saveData(datalist,savepath):    print("save.......")    book = xlwt.Workbook(encoding="utf-8",style_compression=0) #创建workbook对象    sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True) #创建工作表    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")    for i in range(0,8):        sheet.write(0,i,col[i])  #列名    for i in range(0,250):        # print("第%d条" %(i+1))       #输出语句，用来测试        data = datalist[i]        for j in range(0,8):            sheet.write(i+1,j,data[j])  #数据    book.save(savepath) #保存# def saveData2DB(datalist,dbpath):#     init_db(dbpath)#     conn = sqlite3.connect(dbpath)#     cur = conn.cursor()#     for data in datalist:#             for index in range(len(data)):#                 if index == 4 or index == 5:#                     continue#                 data[index] = '"'+data[index]+'"'#             sql = '''#                     insert into movie250(#                     info_link,pic_link,cname,ename,score,rated,instroduction,info)#                     values (%s)'''%",".join(data)#             # print(sql)     #输出查询语句，用来测试#             cur.execute(sql)#             conn.commit()#     cur.close#     conn.close()# def init_db(dbpath):#     sql = '''#         create table movie250(#         id integer  primary  key autoincrement,#         info_link text,#         pic_link text,#         cname varchar,#         ename varchar ,#         score numeric,#         rated numeric,#         instroduction text,#         info text#         )###     '''  #创建数据表#     conn = sqlite3.connect(dbpath)#     cursor = conn.cursor()#     cursor.execute(sql)#     conn.commit()#     conn.close()# 保存数据到数据库if __name__ == "__main__":  # 当程序执行时    # 调用函数     main()    # init_db("movietest.db")     print("爬取完毕！")

下面我根据代码，从下到下给大家讲解分析一遍-- codeing = utf-8 --，开头的这个是设置编码为utf-8 ，写在开头，防止乱码。

然后下面 import就是导入一些库，做做准备工作，（sqlite3这库我并没有用到所以我注释起来了）。
下面一些find开头的是正则表达式，是用来我们筛选信息的。
（正则表达式用到 re 库，也可以不用正则表达式，不是必须的。）
大体流程分三步走：

爬取网页
2.逐一解析数据
3. 保存网页

先分析流程1，爬取网页，baseurl 就是我们要爬虫的网页网址，往下走，调用了 getData（baseurl) ,
我们来看 getData方法

 for i in range(0, 10):  # 调用获取页面信息的函数，10次        url = baseurl + str(i * 25)

这段大家可能看不懂，其实是这样的：
因为电影评分Top250，每个页面只显示25个，所以我们需要访问页面10次，25*10=250。

baseurl = "https://movie.douban.com/top250?start="

我们只要在baseurl后面加上数字就会跳到相应页面，比如i=1时

https://movie.douban.com/top250?start=25

我放上超链接，大家可以点击看看会跳到哪个页面，毕竟实践出真知。

然后又调用了askURL来请求网页，这个方法是请求网页的主体方法，
怕大家翻页麻烦，我再把代码复制一遍，让大家有个直观感受

def askURL(url):    head = {  # 模拟浏览器头部信息，向豆瓣服务器发送消息        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"    }    # 用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上是告诉浏览器，我们可以接收什么水平的文件内容）    request = urllib.request.Request(url, headers=head)    html = ""    try:        response = urllib.request.urlopen(request)        html = response.read().decode("utf-8")    except urllib.error.URLError as e:        if hasattr(e, "code"):            print(e.code)        if hasattr(e, "reason"):            print(e.reason)    return html

这个askURL就是用来向网页发送请求用的，那么这里就有老铁问了，为什么这里要写个head呢？

这是因为我们要是不写的话，访问某些网站的时候会被认出来爬虫，显示错误，错误代码

418

这是一个梗大家可以百度下，

418 I’m a teapot
The HTTP 418 I’m a teapot client error response code indicates that
the server refuses to brew coffee because it is a teapot. This error
is a reference to Hyper Text Coffee Pot Control Protocol which was an
April Fools’ joke in 1998.

我是一个茶壶

所以我们需要 “装” ，装成我们就是一个浏览器，这样就不会被认出来，
伪装一个身份。

来，我们继续往下走，

 html = response.read().decode("utf-8")

这段就是我们读取网页的内容，设置编码为utf-8，目的就是为了防止乱码。
访问成功后，来到了第二个流程：

逐一解析数据

解析数据这里我们用到了 BeautifulSoup（靓汤）这个库，这个库是几乎是做爬虫必备的库，无论你是什么写法。

下面就开始查找符合我们要求的数据，用BeautifulSoup的方法以及 re 库的
正则表达式去匹配，

findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，标售规则   影片详情链接的规则findImgclass="lazy" data-src = re.compile(r'<img.*class="lazy" data-src="(.*?)"', re.S)findTitle = re.compile(r'<span class="title">(.*)</span>')findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')findJudge = re.compile(r'<span>(\d*)人评价</span>')findInq = re.compile(r'<span class="inq">(.*)</span>')findBd = re.compile(r'<p class="">(.*?)</p>', re.S)

匹配到符合我们要求的数据，然后存进 dataList ，所以 dataList 里就存放着我们需要的数据了。

最后一个流程：

保存数据

    # 3.保存数据    saveData(datalist,savepath)      #2种存储方式可以只选择一种    # saveData2DB(datalist,dbpath)

保存数据可以选择保存到 xls 表，需要（xlwt库支持）
也可以选择保存数据到 sqlite数据库，需要（sqlite3库支持）

这里我选择保存到 xls 表，这也是为什么我注释了一大堆代码，注释的部分就是保存到 sqlite 数据库的代码，二者选一就行

保存到 xls 的主体方法是 saveData （下面的saveData2DB方法是保存到sqlite数据库）：

def saveData(datalist,savepath):    print("save.......")    book = xlwt.Workbook(encoding="utf-8",style_compression=0) #创建workbook对象    sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True) #创建工作表    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")    for i in range(0,8):        sheet.write(0,i,col[i])  #列名    for i in range(0,250):        # print("第%d条" %(i+1))       #输出语句，用来测试        data = datalist[i]        for j in range(0,8):            sheet.write(i+1,j,data[j])  #数据    book.save(savepath) #保存

创建工作表，创列（会在当前目录下创建），

  sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True) #创建工作表    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")

然后把 dataList里的数据一条条存进去就行。

最后运作成功后，会在左侧生成这么一个文件

Python爬虫是什么及怎么应用

打开之后看看是不是我们想要的结果

Python爬虫是什么及怎么应用

“Python爬虫是什么及怎么应用”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站，小编将为大家输出更多高质量的实用文章！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python爬虫是什么及怎么应用

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python爬虫是什么及怎么应用

爬虫

为什么我们要使用爬虫

爬虫准备工作

爬虫项目讲解

代码分析

418

Python爬虫是什么及怎么应用

相关文章

猜你喜欢

Python爬虫是什么及怎么应用

什么是Python爬虫及用法

什么是Python爬虫以及如何使用

python爬虫是什么

python爬虫中分布式爬虫的作用是什么

golang爬虫和Python爬虫的区别是什么

python爬虫是干什么的

python爬虫框架是什么

Python爬虫所需要的爬虫代理ip是什么

怎么使用Python爬虫

Python爬虫XPath怎么用

python网络爬虫指的是什么

python爬虫代理池的作用是什么

python爬虫数据是什么意思

Python爬虫怎么突破反爬虫机制

Python 爬虫库RoboBrowser怎么用

怎么使用python爬虫爬取数据

Python爬虫中的并发编程怎么应用

python爬虫反爬怎么处理

python中爬虫指的是什么意思

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复