我的编程空间，编程开发者的网络收藏夹

学习永远不晚

位置：首页-资讯-后端开发

Python爬虫教程-01-爬虫介绍

2023-01-30 22:15

短信预约 -IT技能 免费直播动态提醒

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求

参考资料
精通Python爬虫框架Scrapy，人民邮电出版社

url, http
web前端，html，css，js
ajax
re，xpath
xml

爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫
两大特征
- 能按照作者要求下载数据
- 能自动在网络上流窜
三大步骤
- 下载网页
- 提取正确的信息
- 根据一定规则自动跳到另外的网页上执行上两步操作
爬虫分类
- 通用爬虫：
不分类，比如百度搜索引擎，我们通过百度输入数据，获取百度爬虫从各种网站爬到的数据
- 专用爬虫（聚焦爬虫）：
就是我们介绍的，关于某一类的数据，比如说，需要爬智联招聘网站，某地区的招聘信息
Python网络包简介
- Python2.* ：urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.* ：urllib, urllib3, httplib2, requests
- Python2：urllib, urllib2配合使用，或者requests
- Python3：urllib，requests

Python爬虫教程-01-爬虫介绍
Python爬虫教程-02-使用urlopen
Python爬虫教程-03-使用 chardet 检测编码
Python爬虫教程-04-response简介
Python爬虫教程-05-python爬虫实现百度翻译
Python爬虫教程-06-爬虫实现百度翻译(requests)
Python爬虫教程-07-post介绍(百度翻译)（上）
Python爬虫教程-08-post介绍(百度翻译)（下）
Python爬虫教程-09-error 模块
Python爬虫教程-10-UserAgent和常见浏览器UA值
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)
Python爬虫教程-15-读取cookie(人人网)和SSL(12306官网)
Python爬虫教程-16-破解js加密实例（有道在线翻译）
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-18-页面解析和数据提取
Python爬虫教程-19-数据提取-正则表达式(re)
Python爬虫教程-20-xml简介
Python爬虫教程-21-xpath
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-23-数据提取-BeautifulSoup4（一）
Python爬虫教程-24-数据提取-BeautifulSoup4（二）
Python爬虫教程-25-数据提取-BeautifulSoup4（三）
Python爬虫教程-26-Selenium + PhantomJS
Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表
Python爬虫教程-28-Selenium 操纵 Chrome
Python爬虫教程-29-验证码识别-Tesseract-OCR
Python爬虫教程-30-Scrapy 爬虫框架介绍
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
Python爬虫教程-33-scrapy shell 的使用
Python爬虫教程-34-分布式爬虫介绍

本笔记学习于图灵学院python全栈课程
本笔记不允许任何个人和组织转载

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

爬虫教程 Python

阅读原文内容投诉

Python爬虫教程-01-爬虫介绍

下载Word文档到电脑，方便收藏和打印～

下载Word文档

相关文章

猜你喜欢

Python爬虫教程-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求参考资料精通Python爬虫框架Scrapy，人民邮电出版社url, httpweb前端，html，css，jsajaxre，xp

2023-01-30

Python爬虫教程-34-分布式爬虫介

Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的，本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。其实搜索引擎都是爬虫，负责从

2023-01-30

Python爬虫-01：爬虫的概念及分类

目录 # 1. 为什么要爬虫? 2. 什么是爬虫？ 3. 爬虫如何抓取网页数据？ # 4. Python爬虫的优势？ 5. 学习路

2023-01-30

多线程爬虫介绍

一个进程里只有一个线程，我们称之为单线程爬虫。单线程爬虫每次只访问一个页面，不能充分利用电脑的网络带宽。一个页面最多也就几百KB，所以爬虫在爬取一个页面的时候，多出来的网速就浪费掉了。而如果我们可以让爬虫同时访问10个页面，就相当于我们的爬

2023-01-30

python - 爬虫简介

2023-09-10

Python爬虫教程-28-Seleni

我觉得本篇是很有意思的，闲着没事来看看！PhantomJS 幽灵浏览器，无界面浏览器，不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲染。所以

2023-01-31

python爬虫踩坑教程

我们的目标是爬取下面这个个网址上的2010~2018年的数据http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2015-12-31获取我们需要的表格中的某些列的数据（这是我从我的微

2023-01-31

Python爬虫之requests库基本介绍

2024-04-02

Python爬虫学习教程：天猫商品数据爬虫

天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号，下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博，并通过微博绑定

2023-06-02

【Python-爬虫实战01】top250获取

2023-09-20

python爬虫教程：爬取酷狗音乐

在常见的几个音乐网站里，酷狗可以说是最好爬取的啦，什么弯都没有，也没加密啥的，所以最适合小白入门爬虫本篇针对爬虫零基础的小白，所以每一步骤我都截图并详细解释了，其实我自己看着都啰嗦，归根到底就是两个步骤的请求，还请大佬绕路勿喷。1、打开酷狗

2023-01-31

requests-html爬虫利器介绍

爬虫用的最多的包无非就是requests, urllib,然后再利用pyquery或者bs4,xpath再去整理提取需要的目标数据。在requests-html里面只需要一步就可以完成而且可以直接进行js渲染.requests的作者Kenn

2023-01-30

python爬虫入门教程(非常详细),超级简单的Python爬虫教程

2023-09-01

Python短视频爬虫教程

2024-04-02

Python爬虫系列（一）——手把手教你写Python爬虫

2023-09-14

python下的爬虫简介

今天看了一本书的介绍《python网络爬虫实战》，里面介绍了四种框架（or模块），我做了小结如下：scrapy 基本常用的框架，只要根据固定模版，编写即可，自己主要编写解析的选择器，和解析出来的数据处理。特别适合静态页面的，比如新闻

2023-01-31

网络爬虫的原理介绍

这篇文章主要介绍“网络爬虫的原理介绍”，在日常操作中，相信很多人在网络爬虫的原理介绍问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”网络爬虫的原理介绍”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！认识浏览器

2023-06-02

Python爬虫入门教程 10-100

图虫网-写在前面经历了一顿噼里啪啦的操作之后，终于我把博客写到了第10篇，后面，慢慢的会涉及到更多的爬虫模块，有人问scrapy 啥时候开始用，这个我预计要在30篇以后了吧，后面的套路依旧慢节奏的，所以莫着急了，100篇呢，预计4~5个月写

2023-01-30

Python爬虫入门教程 18-100

很高兴我这系列的文章写道第18篇了，今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx，这个网站其实还是有点意思的，网站很多人写了N多的教程了，各种方式的都有，当然网站本身在爬虫爱好者的不断进攻下，也在不断

2023-01-30

Python爬虫入门教程 20-100

美好的一天又开始了，今天咱继续爬取IT在线教育类网站，慕课网，这个平台的数据量并不是很多，所以爬取起来还是比较简单的打开我们要爬取的页面，寻找分页点和查看是否是异步加载的数据。进行了一些相应的分析，发现并没有异步数据，只需要模拟翻页就，在进

2023-01-30

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译

编程资源站

资料下载
历年试题

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

反馈

我要
反馈