我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python中requests库的学习方法详解

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python中requests库的学习方法详解

前言

好记性不如烂笔头!最近在接口测试,以及爬虫相关,需要用到Python中的requests库,之前用过,但是好久没有用又忘了,这次就把这块的简单整理下(个人笔记使用)

一 URL,URI和URN

1. URL,URI和URN

URI的全称是Uniform Resource Identiferm,即统一资源标识符,它标记了一个资源,比如http://www.baidu.com/ 就代表了一个百度网页。

URL的全称是Uniform Resource Locator,即统一资源定位符,是可以通过给出的路径和文件去找到对应的资源,比如 http://tougao.jb51.net/index.php?c=index&a=login&forward=http%3A%2F%2Ftougao.jb51.net%2F 这个URL就具体定位了一个资源,是可以根据路径去实时找到资源的。

URN的全称是Uniform Resource Name,即统一资源名称;它只命名资源,不指定任何路径去定位资源。

三者关系:URI包含URL,URN,即URL,URN是URI的子集。如果URI是一栋房的话,那URL是某个具体的房间(123号房),URN可以是房里某个东西(凳子),但不知道这个东西(凳子)具体在哪。如下

![在这里插入图片描述](https://img-blog.csdnimg.cn/a59665b093634913b5355aefa580ca44.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YaZQnVn5LitLi4u,size_15,color_FFFFFF,t_70,g_se,x_16

2. URL的组成

常见URL的组成一般如下,用这个URL做一下分析:http://tougao.jb51.net/index.php?c=index&a=login&forward=http%3A%2F%2Ftougao.jb51.net%2F

1 协议:用于访问资源的协议,如上面用的是https协议进行访问,其它还有http,ftp等协议

2 服务器的主机地址:可以是域名,也可以是IP地址。如上面是域名editor.csdn.net访问

3 端口:服务器设置的访问端口。不过URL地址里一般无端口,因为服务器使用了协议的默认端口,用户通过url访问服务器时,可以省略。如http默认端口是80,https默认端口是443,ftp默认端口是22等。

4 路径:资源存放的路径。一般是域名后的/到?之间的内容,如上就是md

5 参数:具体的查询方式,如上面的URL的参数就是not_checkout=1&articleId=122388528

二 请求组成

请求一般是由客户端向服务器端发起的,由4部分组成:请求方法(Request Method),网站(URL),请求头(Request Headers)和 请求体(Request Body)。下面详细整理下最常见的get请求和post请求。

1. 请求方法

常见的请求方法如下

  • GET:请求页面,数据包含在URL里面
  • POST:大多用于提交表单或者上传文件,数据包含在请求体中
  • HEAD:类似GET请求,不过响应报文没有具体的内容,用于获取报头
  • PUT:用客户端传送的数据取代指定的内容
  • DELETE:请求服务器删除指定的页面
  • CONNECT:把服务器当作跳板,让服务器代替客户端访问其他网页
  • OPTIONS:允许客户端查看服务器的性能
  • TRACE:回显服务器收到的请求,主要用于测试或者诊断

不过我们见到和使用的大多数都是GET和POST请求

2. 请求网址

请求的网址即上面说的URL

3. 请求头

请求头,一般是传送服务器需要的一些附加信息,其中比较重要的就是User-Agent,Referer,Cookie等,常用的请求有说明如下

  • Accept: 请求报头域,用于指定客户端可接受哪些类型的信息
  • Accept-Language: 指定客户端可接受的语言类型
  • Accept-Encoding: 指定客户端可接受的编码
  • Host:用于指定资源主机的IP和端口号,其内容为请求URL的原始服务器或网关的位置
  • Cookie:网站为了辨别用户进行会话跟踪而存储在用户本地的数据,它的主要功能是维持当前访问会话。
  • Referer: 用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做资源统计,防盗链接处理等。
  • User-Agent: 可以是服务器识别客户端使用的操作系统及版本,浏览器及版本信息等。所以在做爬虫时要加上此信息,可以伪装浏览器;不加的话很容易被识别为爬虫。
  • Conten-Type:互联网媒体类型,用来表示具体请求中媒体类型信息;如text/html代表HTML格式,image/gif代表GIF图片,application/json代表JSON类型

4. 请求体

请求体一般POST请求的时候才会有,因为GET请求的信息都在URL里。

三 请求

1. get请求

如果我们要发起一个GET请求,直接调用requests库里的GET方法即可,如下

  • get请求时,请求参数一般放在URL里面,数据可以在URL里面看到
import requests
#get(url)
res = requests.get('http://httpbin.org/get')
print(res.text)

请求网站是 http://httpbin.org/get,它会识别我们发起的是get请求,并返回对应的信息。如下

{"args": {},"headers": {"Accept": "*/*","Accept-Encoding": "gzip, deflate","Host": "httpbin.org","User-Agent": "python-requests/2.22.0","X-Amzn-Trace-Id": "Root=1-61e3c913-38e2ad7e3654947049a3c780"},"origin": "27.38.202.28","url": "http://httpbin.org/get"}

不过不加请求头的话容易被禁止访问,访问知乎https://www.zhihu.com/ 如下

import requests
#get(url)
res = requests.get('http://httpbin.org/get')
res1 = requests.get('https://www.zhihu.com/')
print(res1.text)

在这里插入图片描述

2. get带请求头headers参数

上面看见了,如果我们不构造请求头headers的话,容易被禁止访问,因为浏览器有反爬措施,如下

import requests
#get(url,headers)
res1 = requests.get('https://www.zhihu.com/')
print(res1.text)
for i in res1.request.headers.items():
    print(i)

在这里插入图片描述

结果返回403(禁止访问),因为浏览器会通过User-Agent参数了解到我们的电脑系统以及浏览器等信息,上面不带headers时,默认User-Agent为python-requests/2.22.0,这服务器一看就知道是脚本,那肯定就会禁止访问。这时就需要重新构造请求头,伪装成浏览器访问,如下

在这里插入图片描述

将上面的user-agent值用代码传送,如下

import requests
#get(url,headers)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
res1 = requests.get('https://www.zhihu.com/', headers=headers)
print(res1.status_code)
for i in res1.request.headers.items():
    print(i)

在这里插入图片描述

如上,重新构造请求头传了user-agent参数后,请求就成功了,user-agent也是我们传进去的值。

3. post请求

对于post请求,使用requests库发起也是很简单的,如下

import requests
data = {'name': 'anxiaochong', 'age': 24}
res = requests.post('http://httpbin.org/post', data=data)
print(res.status_code)
print(res.text)

对于post请求来说,它的数据在URL里面是看不到的,数据一般存放在请体中,如上,我们发起一个post请求,请求参数是data,当我们请求成功后,它会返回如下信息。

在这里插入图片描述

四 响应

当我们发起请求之后,如果一切正常,就会得到相应的响应。我们的最终目的,就是要获取返回的数据,所以对返回的数据进行处理是非常重要的。

1. 响应状态码

状态码能够最基本的判定服务器对请求的响应情况,比如200就是请求成功,301就是重定向,404就是请求资源不存在,500就是服务器错误等,常见的一些如下

200:请求成功,服务器已成功处理请求。

301: 重定向,请求的网页已经移动到新位置

400: 请求错误401: 未授权,请求没有进行身份验证或者验证未通过

403: 禁止访问404:未找到,请求资源不存在500:服务器错误

503:服务器无法使用

python获取响应状态码如下

#获取响应状态码
import requests
data = {'name': 'anxiaochong', 'age': 24}
res = requests.post('http://httpbin.org/post', data=data)
#获取响应状态码
print(res.status_code)

2. 响应头

响应头包含了服务器对请求的一些应答信息,如Server,Content-Type,Set-cookie等信息。如下

在这里插入图片描述

  • content-type: 返回数据的类型
  • sever:服务器名称,版本等信息
  • set-cookie: 会话cookie,下次请求需要带上。

3. 响应体

响应信息中最重要的当属响应体了,因为我们想要获取的信息基本都在里面。python的request库也有对应的方法了提取相关信息,如下

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
    'Cookie': '_zap=cdbd7845-adac-4d87-ad39-2c6ce8fddde3; _xsrf=kD16ApICYLVrAfyvuW45BRI6jkdo4NcX; d_c0="ABDfdUZbRhSPTmuW3ExXOv346BuMqQ2oWaI=|1641098931"; __snaker__id=P7yktK5PgsCmILtR; gdxidpyhxdE=r9dW%2F%2BxGfN1iooAQAiODTGfGh8mPnu43T4g3V7PKabUA7zMCUUys%5CWvuLdjQeB5r8MZAtwRAOKJUQgJonmDPkpo6C4CxSXwNAP%2FMUa1p52udf%5Cu5eqEoiM%5C5QlGEMdgp3PwqG5uSMvzKyXA5WjmVejZdMmvaqwy8Y7MT1SrgLpf0hG3Q%3A1641099836676; _9755xjdesxxd_=32; YD00517437729195%3AWM_NI=VXux5u3T%2BJ6a%2FwURu60bvpw8ui4mkL1mk0xGQnAgn4UlLc5lq9n%2Fq4nkL9dYlDDOpT8bbuEZZueOScQMFx9h6t9pFTxKkjpVf74kC5EdQT6WJ0AsLoU%2FtsViMqPMk64rVjE%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee87e9699686839bdc73b2868ea2d54a839f9eaeb62183bb8ca7f839968f008cf92af0fea7c3b92a9688bb99b87ff18ce5abb56beda99bb3f83ef4beba91f634b7b7fc8eea48f3b3a5d1fb4d93b28f88ed4097b48484b868b3e7a2d0f440aeb584dae753b09c8cb0f360fcbeae96c8529aababb0d26993938a99bc64f6acf791c560bc95a58bf35ea6e9fc8cc23f87bc9fb5b55d8af08f94cf6597f1bc94d5638fafa0aeea3ef8ae9a8bc837e2a3; YD00517437729195%3AWM_TID=gBk1e8TwlKhAABAAUBN6rQOGA%2FnBFhk3; l_cap_id="ODdjYzkzYjc3ODRlNGU5ZGFhZGNlODZjNmVhZjUxOTk=|1641098947|5e1742f2cfb1bc51e01c98dc554a343834ceb4fe"; r_cap_id="NWJjZTUwNzI3NTZkNGRlOGE2MDc4NjZhNTljMjQwMTE=|1641098947|34aeb872f7b2def674441346a0be809d4d3f3818"; cap_id="YThjNTkwZTZiMjY5NGNiNWJmOWJkYjQzNDRjMWE5MDA=|1641098947|7f4062306951584cd44180c28bb8a8fe90d732cd"; captcha_session_v2="2|1:0|10:1641099110|18:captcha_session_v2|88:THV2VWV1eWhIZUZTZmsvR1Yyd2hHRGNPcFc5QTc4bWNHNWVabzBDZ3JPZFRtUDltenRWeE1SUEtuVEZwcTBHSg==|258d6e1ea988e9f89e94208600834adba972038afbbb273aacc3849fa44c2cf9"; z_c0=Mi4xR1ZYa0RRQUFBQUFBRU45MVJsdEdGQmNBQUFCaEFsVk5sMzItWWdEc09nbTQzZWhiejkwTGhyZTRadE1WSlVEeXZR|1641099159|763c9639b7d621f1e9a64d0e246cec75292d7277; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1641098932,1641217361; tst=h; SESSIONID=gMeSnpcPawUbmk3tMHN6I6Uc2xxUTfnKfx4Pj7xHJ4Z; JOID=VVkVA0wgiAleIRrUbidunj5sRpR9QcRsCk9stj5B-V08S3HhGwmh6jgnHdVpii0jv9C3ZZnJsok4l_oqAxMoR7k=; osd=UVoSCkwkiw5XIR7XaS5umj1rT5R5QsNlCktvsTdB_V47QnHlGA6o6jwkGtxpji4kttCzZp7Aso07kPMqBxAvTrk=; NOT_UNREGISTER_WAITING=1; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1642866191; KLBRSID=fe0fceb358d671fa6cc33898c8c48b48|1642866207|1642866103'
}
res = requests.get('https://www.zhihu.com/hot', headers=headers)
print("响应状态码:", res.status_code)
print("响应内容: ", res.text)
print("获取的响应内容类型: ", type(res.text))
print("响应头信息: ", res.headers)
print("获取请求头信息: ", res.request.headers)
print("获取请求体: ", res.request.body)
print("获取cookie: ", res.cookies)
print("cookie类型: ", type(res.cookies))
print("获取编码格式: ", res.encoding)
print("获取请求URL: ", res.url)

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注编程网的更多内容!      

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python中requests库的学习方法详解

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python中第三方库Requests库的高级用法详解

一、Requests库的安装利用 pip 安装,如果你安装了pip包(一款Python包管理工具,不知道可以百度哟),或者集成环境,比如Python(x,y)或者anaconda的话,就可以直接使用pip安装Python的库。$ pip i
2022-06-04

python中requests库session对象的妙用详解

在进行接口测试的时候,我们会调用多个接口发出多个请求,在这些请求中有时候需要保持一些共用的数据,例如cookies信息。妙用1requests库的session对象能够帮我们跨请求保持某些参数,也会在同一个session实例发出的所有请求之
2022-06-04

python使用requests库提交multipart/form-data请求的方法详解

multipart/form-data的基础是post请求,即基于post请求来实现的,下面这篇文章主要给大家介绍了关于python使用requests库提交multipart/form-data请求的相关资料,需要的朋友可以参考下
2023-01-17

Python机器学习库scikit-learn使用详解

scikit-learn是Python中最流行的机器学习库之一,它提供了各种各样的机器学习算法和工具,包括分类、回归、聚类、降维等
2023-03-19

python爬虫学习笔记--BeautifulSoup4库的使用详解

目录使用范例常用的对象–Tag常用的对象–NavigableString常用的对象–BeautifulSoup常用的对象–Comment对文档树的遍历tag中包含多个字符串的情况.stripped_strings 去除空白内容搜索文档树–f
2022-06-10

jsp学习之scriptlet的使用方法详解

在JSP中,scriptlet是一种在JSP页面中嵌入Java代码的方式。它被包含在标签中,可以在其中编写任意的Java代码。下面是scriptlet的使用方法的详细解释:1. 在JSP页面中使用scriptlet代码块,可以在其中编写任意
2023-08-11

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录