Python 爬取微博热搜页面
前期准备:
fiddler 抓包工具
Python3.6
谷歌浏览器
分析:
1.清理浏览器缓存cookie
以至于看到整个请求过程,因为Python代码开始请求的时候不带任何缓存。
2.不考虑过多的header
参数,先请求一次,看看返回结果
图中第一个链接是无缓存cookie
直接访问的,状态码为302进行了重定向,用返回值.url会得到该url后面会用到(headers
里的Referer参数值)
2 ,3 链接没有用太大用处为第 4 个链接做铺垫但是都可以用固定参数可以不用访问
访问https://passport.weibo.com/visitor/genvisitor ,cookie为tid=__095,注意tid需要去掉转义字符‘\’,get传的参数有用的只有t也就是tid 其他都是固定值 、_rand是浮点随机数没啥具体的意义可以用Python的random.random()函数,需要导入random库,get传参使用params=,post传参用data=,不是随便都能用的
得到返回值 含有SUB 和SUBP参数的值
正好是访问最后一个链接也就是热搜榜需要的cookie的值
到此分析结束
代码:
import requests
import random
import re
import urllib3
#警告忽略
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
class Wb():
def __init__(self):
#利用session保持回话
self.session=requests.Session()
#清理headers字典,不然update好像不会起作用
self.session.headers.clear()
self.header={
"Host": "weibo.com",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) "
"AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/86.0.4240.198 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;"
"q=0.9,image/avif,image/webp,image/apng,**",
"Origin": "https://passport.weibo.com",
"Sec-Fetch-Site": "same-origin",
"Sec-Fetch-Mode": "cors",
"Sec-Fetch-Dest": "empty",
"Referer": response.url,
}
self.session.headers.update(header1)
response1=self.session.post(url="https://passport.weibo.com/visitor/genvisitor"
,data=data1,proxies=self.fiddler_proxies,verify=False)
#利用正则表达式解析tid参数的值
t=re.search('{"tid":"(.*)","new_tid"',response1.text).groups()[0]
data2={
"a":"incarnate",
"t":t.replace("\\",""),
"w": "2",
"c": "095",
"gc":"",
"cb":"cross_domain",
"from":"weibo",
"_rand":random.random()
}
header2={
"Sec-Fetch-Mode": "no-cors",
"Sec-Fetch-Dest": "script",
"Cookie":"tid="+t.replace("\\","")+"__095"
}
self.session.headers.update(header2)
response2 = self.session.get(url="https://passport.weibo.com/visitor/visitor",
params=data2,proxies=self.fiddler_proxies,verify=False)
#从返回值中获取cookie字典
cookie = requests.utils.dict_from_cookiejar(response2.cookies)
header3={
"Cookie":"SUB="+cookie["SUB"]+";"+"SUBP="+cookie["SUBP"],
"Host": "s.weibo.com",
"Upgrade-Insecure-Requests": "1"
}
self.session.headers.update(header3)
response3=self.session.get(url="https://s.weibo.com/top/summary",
proxies=self.fiddler_proxies,verify=False)
# print(response3.text)
if __name__ == '__main__':
wb=Wb()
wb.get_top_summary()
至此只能得到原始的html页面,想要进一步操作需要在HTML里面提取有用的数据。。。。。。
爬虫初期需要更多的是耐心
到此这篇关于Python 爬取微博热搜页面的文章就介绍到这了,更多相关Python 爬取微博热搜页面内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341