Python异步爬虫实现原理与知识总结

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

一、背景

默认情况下，用get请求时，会出现阻塞，需要很多时间来等待，对于有很多请求url时，速度就很慢。因为需要一个url请求的完成，才能让下一个url继续访问。一种很自然的想法就是用异步机制来提高爬虫速度。通过构建线程池或者进程池完成异步爬虫，即使用多线程或者多进程来处理多个请求（在别的进程或者线程阻塞时）。


import time 
#串形
 
def getPage(url):
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#开始计时
 
for url in urls:
    getPage(url)
 
endTime= time.time()#结束计时
print("完成时间%d"%(endTime - beginTime))

下面通过模拟爬取网站来完成对多线程，多进程，协程的理解。

二、多线程实现


import time 
#使用线程池对象
from multiprocessing.dummy import Pool
 
def getPage(url):
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#开始计时
 
#准备开启5个线程,并示例化对象
pool = Pool(5)
pool.map(getPage, urls)#urls是可迭代对象，里面每个参数都会给getPage方法处理
 
endTime= time.time()#结束计时
print("完成时间%d"%(endTime - beginTime))

完成时间只需要2s!!!!!!!!

线程池使用原则：适合处理耗时并且阻塞的操作

三、协程实现

单线程+异步协程！！！！！！！！！！强烈推荐，目前流行的方式。

相关概念：


#%%
import time 
#使用协程
import asyncio
 
 
async def getPage(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
    
#async修饰的函数返回的对象    
c = getPage(11)
 
#创建事件对象
loop_event = asyncio.get_event_loop()
#注册并启动looP
loop_event.run_until_complete(c)
 
#task对象使用，封装协程对象c
'''
loop_event = asyncio.get_event_loop()
task = loop_event.create_task(c)
loop_event.run_until_complete(task)
'''
 
#Future对象使用，封装协程对象c            用法和task差不多
'''
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c)
loop_event.run_until_complete(task)
'''
 
#绑定回调使用
 
async def getPage2(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    time.sleep(2)#阻塞
    print("爬取完成！！！",url)
    return url
    
#async修饰的函数返回的对象    
c2 = getPage2(2)
 
def callback_func(task):
    print(task.result()) #task.result()返回任务对象中封装的协程对象对应函数的返回值
 
 
#绑定回调
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c2)
 
task.add_done_callback(callback_func)  #真正绑定，
loop_event.run_until_complete(task)

输出：

四、多任务协程实现


import time 
#使用多任务协程
import asyncio
 
 
 
 
urls = ['url1','url2','url3','url4','url5']
 
 
 
async def getPage(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    #在异步协程中如果出现同步模块相关的代码，那么无法实现异步
    #time.sleep(2)#阻塞
    await asyncio.sleep(2)#遇到阻塞操作必须手动挂起
    print("爬取完成！！！",url)
    return url
    
 
beginTime = time.time()  
 
 
#任务列表，有多个任务
tasks = []
 
for url in urls:
    c = getPage(url)
    task = asyncio.ensure_future(c)#创建任务对象
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))#不能直接放task，需要封装进入asyncio,wait()方法中
 
endTime = time.time()   
print("完成时间%d"%(endTime - beginTime))

此时不能用time.sleep(2)，用了还是10秒

对于真正爬取过程中，如在getPage()方法中真正爬取数据时，即requests.get(url) ,它是基于同步方式实现。应该使用异步网络请求模块aiohttp

参考下面代码：


async def getPage(url):  #定义了一个协程对象，python中函数也是对象
    print("开始爬取网站",url)
    #在异步协程中如果出现同步模块相关的代码，那么无法实现异步
    #requests.get(url)#阻塞
    async with aiohttp.ClintSession() as session:
 
                     async with await  session.get(url) as response: #手动挂起
 
                                       page_text =  await response.text() #.text()返回字符串，read()返回二进制数据，注意不是content
    print("爬取完成！！！",url)
    return page_text

到此这篇关于Python异步爬虫实现原理与知识总结的文章就介绍到这了,更多相关Python异步爬虫内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python异步爬虫实现原理与知识总结

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python异步爬虫实现原理与知识总结

目录

一、背景

二、多线程实现

三、协程实现

四、多任务协程实现

Python异步爬虫实现原理与知识总结

相关文章

猜你喜欢

Python异步爬虫实现原理与知识总结

使用Python怎么实现异步爬虫的原理是什么

Python实现的异步代理爬虫及代理池

大数据处理必备：Python异步编程实现原理与应用

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

Python异步爬虫实现原理与知识总结

目录

一、背景

二、多线程实现

三、协程实现

四、多任务协程实现

Python异步爬虫实现原理与知识总结

相关文章

猜你喜欢

Python异步爬虫实现原理与知识总结

使用Python怎么实现异步爬虫的原理是什么

Python实现的异步代理爬虫及代理池

大数据处理必备：Python异步编程实现原理与应用

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复