我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python之web模块学习-- url

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python之web模块学习-- url

  下面继续学习python的web模块 ---  urllib2,一个源于urllib又高于urllib的模块。


1  urllib2 简介

    urllib2是python自带的一个访问网页及本地文件的库。

    与urllib相比,显著区别之处在于:

    1) urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,用urllib时不可以伪装User Agent字符串等。

    2) urllib提供urlencode方法用来encode发送的data,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。


2  urllib2 常用方法

 2.1  urllib2.urlopen

    urlopen()是最简单的请求方式,它打开url并返回类文件对象,并且使用该对象可以读取返回的内容

    urllib2.urlopen(url[, data][, timeout]) 
参数:
    url: 可以是包含url的字符串,也可以是urllib2.request类的实例。
    data: 是经过编码的post数据(一般使用urllib.urlencode()来编码)。
    没有data参数时为GET请求,设置data参数时为POST请求
    timeout: 是可选的超时期(以秒为单位),设置请求阻塞的超时时间,如果没有设置的话,会使用全局默认timeout参数,该参数只对HTTP、HTTPS、FTP生效

假设urlopen()返回的文件对象u,它支持下面的这些常用的方法:

  • u.read([nbytes]) 以字节字符串形式读取nbytes个数据

  • u.readline() 以字节字符串形式读取单行文本

  • u.readlines() 读取所有输入行然后返回一个列表

  • u.close() 关闭链接

  • u.getcode() 返回整数形式的HTTP响应代码,比如成功返回200,未找到文件时返回404

  • u.geturl() 返回所返回的数据的实际url,但是会考虑发生的重定向问题

  • u.info() 返回映射对象,该对象带有与url关联的信息,对HTTP来说,返回的服务器响应包含HTTP包头。对于FTP来说,返回的报头包含'content-length'。对于本地文件,返回的报头包含‘content-length’和'content-type'字段。

注意:

    类文件对象u以二进制模式操作。如果需要以文本形式处理响应数据,则需要使用codecs模块或类似方式解码数据。

附代码:

>>> import urllib2
>>> res=urllib2.urlopen('http://www.51cto.com')
>>>res.read()
。。。。。。(一堆源代码)
>>>res.readline()
'<!DOCTYPE html PUBLIC "-//W3C//DTDXHTML 1.0 Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n'
>>>res.readlines()
。。。(list形式的一堆源码)
>>>res.info()
<httplib.HTTPMessage instance at0x1a02638>
>>>res.getcode()
200
>>>res.geturl()
'http://www.51cto.com'
#最后关闭连接
>>> res.close()

  2.2  urllib2.request

     新建Request实例

    Request (url [data,headers[,origin_req_host ,[unverifiable]]]])
说明:
    对于比较简单的请求,urlopen()的参数url就是一个代表url的,但如果需要执行更复杂的操作,如修改HTTP报头,可以创建Request实例并将其作为url参数
参数:
    url: 为url字符串,
    data: 是伴随url提交的数据(比如要post的数据)。不过要注意,提供data参数时,它会将HTTP请求从'GET'改为‘POST’。
    headers: 是一个字典,包含了可表示HTTP报头的键值映射(即要提交的header中包含的内容)。
    origin_req_host: 通常是发出请求的主机的名称,如果请求的是无法验证的url(通常是指不是用户直接输入的url,比如加载图像的页面中镶入的url),则后一个参数unverifiable设为TRUE

    假设Request实例r,其比较重要的方法有下面几个:

  • r.add_data(data) 向请求添加数据。如果请求是HTTP请求,则方法改为‘POST’。data是向指定url提交的数据,要注意该方法不会将data追教导之前已经设置的任何数据上,而是使用现在的data替换之前的。

  • r.add_header(key, val) 向请求添加header信息,key是报头名,val是报头值,两个参数都是字符串。

  • r.addunredirectedheader(key,val) 作用基本同上,但不会添加到重定向请求中。

  • r.set_proxy(host, type) 准备请求到服务器。使用host替换原来的主机,使用type替换原来的请求类型。

附代码:

    1  向网页提交数据:

>>> import urllib
>>> import urllib2
>>> url='http://www.51cto.com'
>>> info={'name':"51cto",'location':'51cto'}
#info需要被编码为urllib2能理解的格式,这里用到的是urllib
>>> data=urllib.urlencode(info)
>>> data
'name=51cto&location=51cto'
>>> request=urllib2.Request(url,data)
>>> response=urllib2.urlopen(request)
>>> the_page=response.read()

    2  修改网页头信息:

    有时会碰到,程序也对,但是服务器拒绝你的访问。这是为什么呢?问题出在请求中的头信息(header)。 有的服务端有洁癖,不喜欢程序来触摸它。这个时候你需要将你的程序伪装成浏览器来发出请求。请求的方式就包含在header中。


    在使用 REST 接口时,Server 会检查Content-Type字段,用来确定 HTTP Body 中的内容该怎样解析。


>>> import urllib
>>> import urllib2
>>> url='http://www.51cto.com'
# 将user_agent写入头信息
>>> user_agent='Mozilla/4.0 (compatible; MSIE 5.5; WindowsNT)'
>>>values={'name':'51cto','location':"51cto",'language':'Python'} 
>>> headers={'User-Agent':user_agent}
>>> data=urllib.urlencode(values)
>>> req=urllib2.Request(url,data,headers)
>>> response=urllib2.urlopen(req)
>>> the_page=response.read()

  2.3  异常处理

    不能处理一个respons时,urlopen抛出一个urlerror


urllib2.URLError:  
urllib2.HTTPError:

    HTTPerror是HTTP URL在特别的情况下被抛出的URLError的一个子类。


    urlerror:
    通常,urlerror被抛出是因为没有网络 连接(没有至特定服务器的连接)或者特定的服务器不存在。在这种情况下,含有reason属性的异常将被抛出,以一种包含错误代码 和文本错误信息的tuple形式。


#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
#多写了一个 m (comm)
req = urllib2.Request('http://www.51cto.comm')
try:
    urllib2.urlopen(req)
except urllib2.URLError,e:
    print e
    print e.reason

结果:


<urlopen error [Errno 11004] getaddrinfo failed>
[Errno 11004] getaddrinfo failed


    以上是 urllib2的简单用法,如果要深入:

http://www.cnblogs.com/yuxc/archive/2011/08/01/2123995.html

    urllib和urllib2之间的区别:

http://www.cnblogs.com/yuxc/archive/2011/08/01/2124073.html



免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python之web模块学习-- url

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python之web模块学习-- url

下面继续学习python的web模块 ---  urllib2,一个源于urllib又高于urllib的模块。1  urllib2 简介    urllib2是python自带的一个访问网页及本地文件的库。    与urllib相比,显著区
2023-01-31

python之web模块学习-- htt

1  httplib简介httplib 是python中http协议的客户端实现,可以使用该模块来与 HTTP 服务器进行交互    httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第
2023-01-31

node.js入门学习之url模块

前言 今天主要记录的是关于node.js里面的一个简单的模块,url模块。这个url的模块要使用的话需要先引入。若只是在命令行里比如cmd或git bash 等使用url这个模块的话,是不需要require进来的。直接使用便可。 引入模块v
2022-06-04

Python模块学习之IPy模块

IP地址规划是网络设计中非常重要的一个环节,规划的好坏会直接影响路由协议算法的效率,包括网络性能、可扩展性等方面,在这个过程当中,免不了要计算大量的IP地址,包括网段、网络掩码、广播地址、子网数、IP类型等。Python提供了一个强大的第三
2023-01-31

NodeJS学习笔记之(Url,QueryString,Path)模块

一,开篇分析 这篇文章把这三个模块拿来一起说,原因是它们各自的篇幅都不是很长,其次是它们之间存在着依赖关系,所以依次介绍并且实例分析。废话不多说了,请看下面文档: (1),"Url模块"来个小栗子:  var url = require('
2022-06-04

python学习之argparse模块

一、简介:argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数,例如 python parseTest.py input.txt outpu
2023-01-31

Python学习之PyYaml模块

我需要解析twemproxy的配置文件中的pool和后端的redis主机。采用shell解析yml文件太麻烦,正好python有正对于yaml文件解析的pyyaml模块例如twemporxy的配置文件nutcracker.yamlalpha
2023-01-31

python模块之paramiko学习<

简介:paramiko是python(2.2或更高)的模块,遵循SSH2协议实现了安全(加密和认证)连接远程机器。安装所需软件包:http://ftp.dlitz.net/pub/dlitz/crypto/pycrypto/pycrypto
2023-01-31

Python学习之MySQLdb模块

CentOS下安装sudo yum install MySQL-python可以参考http://www.mikusa.com/python-mysql-docs/index.html  获取更多信息MySQL-python 为Python
2023-01-31

Python学习笔记之json模块和pickle模块

json和pickle模块是将数据进行序列化处理,并进行网络传输或存入硬盘,下面这篇文章主要给大家介绍了关于Python学习笔记之json模块和pickle模块的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-18

小白学习Python之路---re模块学

本节大纲:  1.正则表达式  2.re模块的学习  3.速记理解技巧  4.挑战练习--开发一个简单的python计算器  5.心得总结  6.学习建议  正则表达式:  正则表达式,又称规则表达式。(英语:Regular Express
2023-01-31

python模块学习----nmap模块

安装nmap模块:pip install python_nmanmap模块说明:python-nmap是一个帮助使用nmap端口扫描器的python库。它允许轻松操纵nmap扫描结果,并且将是一个完美的选择,为需要自动完成扫描任务的系统管理
2023-01-31

Python 模块学习

模块学习:http://wsyht90.blog.51cto.com/9014030/18457371、getpass2、os3、sys4、subprocess5、hashlib6、json7、pickle8、shutil9、time10、
2023-01-31

python模块学习

系统相关的信息模块: import syssys.argv 是一个 list,包含所有的命令行参数. sys.stdout sys.stdin sys.stderr 分别表示标准输入输出,错误输出的文件对象. sys.stdin
2023-01-31

python学习-psuti模块

psutil(进程和系统实用程序)是一个跨平台的库,用于 在Python中检索有关运行进程和系统利用率(CPU,内存,磁盘,网络,传感器)的信息。它主要用于系统监视,分析和限制流程资源以及运行流程的管理。它实现了UNIX命令行工具提供的许多
2023-01-31

Python pycurl模块 学习

pycurl模块的安装方法如下:easy_install pycurl #easy_install安装方法pip install pycurl #pip安装方法#源码安装方法# 要求curl-config包支持,需要源码方式重新安装curl
2023-01-31

Python学习-pycurl模块

pycurl是一个用c语言编写的libcurl Python实现,功能非常强大,支持操作协议有FTP,HTTP,HTTPS,TELNET等。模块的常用方法说明:close()方法,对应libcurl包中的curl_easy_cleanup方
2023-01-31

python学习-smtplib模块

python的stmplib模块可以实现邮件的发送功能,可以模拟一个smtp客户端。在python2.3或者更高版本默认自带smtplib模块,无需额外安装。一、smtplibi模块的常用类与方法    smtp类定义:smtplib([h
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录