我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python3 requests 抓取乱

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python3 requests 抓取乱

遇到此问题后 设置r.encoding='gbk'或r.encoding='gb2312'后可以了


注意:gbk范围要比gb2312要大,设置gbk要好


python用到中文转拼音的一个包 xpinyin,但用pyinstaller生成exe时,运行提示缺包,没解决


python读取文件方式:

读取:

file = open('setUrl.txt','r')

url = file.read()

file.close()

写入:不存在创建,每次打开写入时先清空再开始写入

file = open('sql.txt','w') #‘w’是覆盖,‘a’是追加

for i in strs:

    print(i[2])

file.write(i[2] + '\n')

file.close()


python模块安装方法:

进入命令行直接输入 :pip install 包名 


python打包exe 方法

进入程序目录,用pyinstaller打包,输入命令行:pyinstaller [-F] 打包python文件名.py
该方式在迁移后不能修改.py文件,不推荐,暂没找到好方法,并且打包后运行会提示缺模块如“queue”要在py中引入“from multiprocessing import Queue”。


python3中全局变量使用方式,主方法中声明,调用方法中再声明

global 变量名

def funcA():

    global 变量名


一些网站可能简单屏蔽网页抓取,通过设置http请求标头,可实现抓取

    UserAgent = 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
    accept = '*/*'
    acceptLanguage = 'zh-Hans-CN, zh-Hans; q=0.8, en-US; q=0.5, en; q=0.3'
    acceptEncoding = 'gzip, deflate, sdch'
    Cookie = 'AD_RS_COOKIE=20083361; _trs_ua_s_1=em41_6_j0ywubts; _gscu_1771678062=91030129ufqfm619; _gscs_1771678062=9103012938hyzj19|pv:1; _gscbrs_1771678062=1; _trs_uv=23au_6_j0ywubts'
    Host = 'www.stats.gov.cn'
    CacheControl = 'no-cache'
    Connection = 'Keep-Alive'
    headers = { 'User-Agent' : UserAgent,'accept':accept,'accept-Encoding':acceptEncoding,'Accept-Language':acceptLanguage,'Cookie':Cookie,'Host':Host,'Cache-Control' : CacheControl,'Connection':Connection}
    s = requests.Session()
    s.headers.update(headers)
    req = s.get(url)
    req.encoding='gbk'

网页抓取 解析html

BeautifulSoup很好用,类似jquery选择器,可替代正则表达式

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python3 requests 抓取乱

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python3 requests 抓取乱

遇到此问题后 设置r.encoding='gbk'或r.encoding='gb2312'后可以了注意:gbk范围要比gb2312要大,设置gbk要好python用到中文转拼音的一个包 xpinyin,但用pyinstaller生成exe时
2023-01-31

Python3使用requests包抓取并保存网页源码的方法

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下: 使用Python 3的requests模块抓取网页源码并保存到文件示例:import requests html = reques
2022-06-04

如何使用Requests模块抓取网页

这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。爬取网页其实就是通过URL获取网页信
2023-07-06

python3使用urllib抓取用户

#python34# -*- coding: utf-8 -*-import http.cookiejarimport urllib.errorimport urllib.parseimport urllib.requestLOGIN_UR
2023-01-31

requests项目实战--抓取猫眼电影排行

requests项目实战--抓取猫眼电影排行目标 url :https://maoyan.com/board/4?offset=0提取出猫眼电影TOP100的电影名称,主演,上映时间,评分,图片等信息,提取的结果以文本的形式保存起来。环境:
2023-01-30

Requests库实现数据抓取与处理功能

本文介绍了Python中常用的第三方库Requests的基本用法和高级功能,我们学习了如何发起HTTP请求、处理响应、使用会话对象、设置代理和证书验证等技巧,需要的朋友可以参考下
2023-05-20

详解python3百度指数抓取实例

百度指数抓取,再用图像识别得到指数 前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字:哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福 安装的库很多:谷歌图像识别tesseract-ocrp
2022-06-04

VB.NET中抓取网页乱码怎么办

这篇文章将为大家详细讲解有关VB.NET中抓取网页乱码怎么办,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。举一个小案例如下。以下为VB.Net抓取网页的函数LobDotCn 注:url_Link为抓取的
2023-06-17

Python爬虫之使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之使用BeautifulSoup和Requests抓取网页数据,本篇文章将介绍如何使用Python编写一个简单的网络爬虫,从网页中提取有用的数据,需要的朋友可以参考下
2023-05-14

Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Reque
2023-07-05

Node.js抓取网站中文乱码解决办法

这篇文章主要介绍了Node.js抓取网站中文乱码解决办法,需要的朋友可以参考下
2023-02-18

nodejs爬虫抓取数据乱码问题总结

一、非UTF-8页面处理. 1.背景 windows-1251编码 比如俄语网站:https://vk.com/cciinniikk 可耻地发现是这种编码所有这里主要说的是 Windows-1251(cp1251)编码与utf-8编码的问题
2022-06-04

python3实现抓取网页资源的 N 种方法

这两天学习了python3实现抓取网页资源的方法,发现了很多种方法,所以,今天添加一点小笔记。1、最简单import urllib.request response = urllib.request.urlopen('http://pyth
2022-06-04

python3对于抓取租房房屋信息的进一

# -*- coding: utf-8 -*-# File : 7链家抓取--抓取经纪人信息.py# Author: HuXianyong# Date : 2018-08-30 15:41from urllib import reque
2023-01-31

如何使用python3抓取微信公众号文章

通过微信公众平台的查找文章接口,抓取我们需要的相关文章1.首先我们先看一下,通过正常的登录自己的微信公众号,然后用文章搜索功能,搜索一下我们需要查找的相关文章。打开https://mp.weixin.qq.com登录公众号,打开素材管理,点
2023-01-31

Python使用lxml模块和Requests模块抓取HTML页面的教程

Web抓取 Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档。有时从中 获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数据。 这正是web抓取出场的时机。We
2022-06-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录