位置：首页-资讯-后端开发

使用 Python 爬取网页数据

2023-01-31 00:30

短信预约 -IT技能 免费直播动态提醒

1. 使用 urllib.request 获取网页

urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 HTML 解析库, 可以编写出用于采集网络数据的大型爬虫;

注: 示例代码使用Python3编写; urllib 是 Python2 中 urllib 和 urllib2 两个库合并而来, Python2 中的 urllib2 对应 Python3中的 urllib.request

简单的示例:

2. 伪造请求头信息

有时爬虫发起的请求会被服务器拒绝, 这时就需要将爬虫伪装成人类用户的浏览器, 这通常通过伪造请求头信息实现, 如:

3. 伪造请求主体

在爬取某一些网站时, 需要向服务器 POST 数据, 这时就需要伪造请求主体;

为了实现有道词典在线翻译脚本, 在 Chrome 中打开开发工具, 在 Network 下找到方法为 POST 的请求, 观察数据可以发现请求主体中的 ‘ i ‘ 为经过 URL 编码的需要翻译的内容, 因此可以伪造请求主体, 如:

也可以使用 add_header() 方法伪造请求头, 如:

4. 使用代理IP

为了避免爬虫采集过于频繁导致的IP被封的问题, 可以使用代理IP, 如:

注: 使用爬虫过于频繁的访问目标站点会占用服务器大量资源, 大规模分布式爬虫集中爬取某一站点甚至相当于对该站点发起DDOS攻击; 因此, 使用爬虫爬取数据时应该合理安排爬取频率和时间; 如: 在服务器相对空闲的时间 ( 如: 凌晨 ) 进行爬取, 完成一次爬取任务后暂停一段时间等;

5. 检测网页的编码方式

尽管大多数网页都是用 UTF-8 编码, 但有时候会遇到使用其他编码方式的网页, 因此必须知道网页的编码方式才能正确的对爬取的页面进行解码;

chardet 是 python 的一个第三方模块, 使用 chardet 可以自动检测网页的编码方式;

安装 chardet : pip install charest

使用:

6. 获得跳转链接

有时网页一个页面需要在原始 URL 的基础上进行一次甚至多次跳转才能最终到达目的页面, 因此需要正确的处理跳转;

通过 requests 模块的 head() 函数获得跳转链接的 URL , 如

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

网页数据 Python

阅读原文内容投诉

使用 Python 爬取网页数据

下载Word文档到电脑，方便收藏和打印～

下载Word文档

使用 Python 爬取网页数据

使用 Python 爬取网页数据

相关文章

猜你喜欢

使用 Python 爬取网页数据

Python实战使用Selenium爬取网页数据

如何用python爬取网页数据

Python 爬虫：如何用 BeautifulSoup 爬取网页数据

python爬虫爬取网页数据并解析数据

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

python爬取网页数据到保存到csv

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

使用python爬取网页版QQ空间

怎么使用python爬取网页图片

怎么使用python爬虫爬取数据

python爬虫爬取赶集网数据

Python 爬取网页中JavaScri

怎么用python爬取网站数据

怎么用python爬取网站数据

使用python怎么爬取数据

Python怎么爬虫网页数据

走好这六步，python爬虫爬取网页数据手到擒来~

怎么在python中使用xpath爬取网上数据

python使用XPath解析数据爬取起点小说网数据

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复