我的编程空间,编程开发者的网络收藏夹
学习永远不晚

判断网页编码的方法python版

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

判断网页编码的方法python版

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法


import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块


#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持编程网。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

判断网页编码的方法python版

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

判断网页编码的方法python版

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。 但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
2022-06-04

Python字符编码判断方法分析

本文实例讲述了Python字符编码判断方法。分享给大家供大家参考,具体如下: 方法一: isinstance(s, str) 用来判断是否为一般字符串 isinstance(s, unicode) 用来判断是否为unicode 或if ty
2022-06-04

Android编程判断是否连接网络的方法【WiFi及3G判断】

本文实例讲述了Android编程判断是否连接网络的方法。分享给大家供大家参考,具体如下: 判断wifi网络是否链接:public static boolean isWiFiActive(Context inContext) {WifiMan
2022-06-06

python质数的判断方法

这篇文章将为大家详细讲解有关python质数的判断方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python质数判断的方法:首先运用python的数学函数;然后单行程序扫描素数,代码为【[ p for
2023-06-08

python判断字符串编码的简单实现方法(使用chardet)

本文实例讲述了python判断字符串编码的方法。分享给大家供大家参考,具体如下: 安装chardet模块 chardet文件夹放在/usr/lib/python2.4/site-packages目录下[root@sha-sso-data01
2022-06-04

python判断回文数的方法

这篇文章给大家分享的是有关python判断回文数的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python判断回文数的方法:首先将数组转为字符串;然后设置两个指针,一个从左往右遍历字符串,一个从右往左遍历,
2023-06-08

Android编程判断网络连接是否可用的方法

本文实例讲述了Android编程判断网络连接是否可用的方法。分享给大家供大家参考,具体如下: 为了提高用户体验,我们在开发 android 应用的过程需要联网获取数据的时候我们首先要做的一步就是: 1.判断当前手机是否打开了网络 2.打开了
2022-06-06

java判断是否乱码的方法

项目中有一个功能 在IE中GET方式提交会产生乱码 但有两个入口都会走这同一段代码。固不能直接转码,所以要进行判断传过来的该值是不是乱码。可用以下方式验证:java.nio.charset.Charset.forName("GBK").newEncoder()
java判断是否乱码的方法
2016-09-02

Dreamweaver默认网页编码的修改方法

这篇文章主要讲解了“Dreamweaver默认网页编码的修改方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Dreamweaver默认网页编码的修改方法”吧!Dreamweaver CS3
2023-06-08

python 获取网页编码方式实现代码

python 获取网页编码方式实现代码
2022-06-04

Android判断设备网络连接状态及判断连接方式的方法

本文实例讲述了Android判断设备网络连接状态及判断连接方式的方法。分享给大家供大家参考,具体如下: 在Android开发过程中,对于一个需要连接网络的Android设备,对设备的网络状态检测是很有必要的!有很多的App都需要连接网络。判
2022-06-06

python判断质数的方法有哪些

判断质数的方法有以下几种:简单的方法是遍历从2到n-1的所有整数,判断n是否能被这些整数整除。如果n能被任何一个整数整除,则n不是质数。这种方法的时间复杂度为O(n)。def is_prime(n):if n 优化的方法是只需要遍历从2到n
2023-10-22

Python判断整除的方法是什么

Python中判断整除的方法是使用取模运算符(%)来计算两个数相除的余数,如果余数为0,则表示整除。示例代码如下:a = 10b = 3if a % b == 0:print("a能整除b")else:print("a不能整除b")
2023-10-22

Android编程之判断SD卡状态的方法

本文实例讲述了Android编程之判断SD卡状态的方法。分享给大家供大家参考,具体如下: 首先我们要在AndroidManifest.xml中增加SD卡访问权限:
2022-06-06

python判断是否为整数的方法

这篇文章给大家分享的是有关python判断是否为整数的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python判断是否为整数的方法:1、使用【type()】函数判断,代码为【type(name, bases
2023-06-08

判断正版或盗版win7的方法以免上当受骗

在某些情况下,微软公司很清楚盗版者使用先进的技术复制其软件产品,以至于连微软自己的员工都无法分辨正版软件与盗版软件的区别。因此,微软官方网站专门开设了如何辨别真伪版块,用户可以根据微软提供的信息分辨购买的产品是否受骗上当。 现在,微软最新版
2023-06-02

Python编程判断一个正整数是否为素数的方法

本文实例讲述了Python编程判断一个正整数是否为素数的方法。分享给大家供大家参考,具体如下:import string import math #判断是否素数的函数 def isPrime(n):if(n<2):return False;
2022-06-04

python奇偶数判断的方法有哪些

在Python中,可以使用以下几种方法来判断一个数是奇数还是偶数:1. 使用取模运算符(%):将给定的数与2进行取模运算,如果余数为0,则为偶数,否则为奇数。```pythonnum = int(input("请输入一个整数:"))if n
2023-08-23

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录