我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python起点网月票榜字体反爬的方法是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python起点网月票榜字体反爬的方法是什么

本篇内容主要讲解“python起点网月票榜字体反爬的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python起点网月票榜字体反爬的方法是什么”吧!

1.解析过程

老规矩哈我们先进入起点月票榜f12调试,找到书名与其对应的月票数据所在,使用xpath尝试提取

 python起点网月票榜字体反爬的方法是什么

可以看到刚刚好20条数据,接下来找月票数据:

 python起点网月票榜字体反爬的方法是什么

这是什么鬼xpath检索出来20条数据但是数据为空,element中数据显示为未知符号,这貌似没有数据呀,这时我们观察源代码,搜索关键字font-face可以看到这种看不懂的编码,这就是前言中所说的字体的编码。

 我们接下来找字体文件数据包

python起点网月票榜字体反爬的方法是什么

 woff文件并且请求地址与这上面看到的地址一样,不过这里需要注意的是每次请求地址都不一样,文件名字也不一样,所以我们需要每爬取一次都要单独爬取一次字体加密数据,字体加密数据可以使用第三方库fonttools进行解析

我们现在拥有:

1.书名

2.月票数据的密文

3.月票数据密文对应的字体文件

2.开始敲代码

首先定义获取书名的函数get_book_name并进行测试:

import requestsfrom lxml import etree  def get_book_name(xml_obj):    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")    return name_list  if __name__ == '__main__':    # 设置我们通用的请求头,避免被反爬拦截    headers_ = {        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',        'referer': 'https://www.qidian.com/rank/',        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'    }    url_ = 'https://www.qidian.com/rank/yuepiao/'    # 请求网页源代码    str_data = requests.get(url_, headers=headers_).text    # 使用xpath解析书名    xml_obj = etree.HTML(str_data)    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']

请求月票数据密文,并进行测试:

import re import requestsfrom lxml import etree # 获取书名def get_book_name(xml_obj):    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")    return name_list # 获取月票加密数据def get_yuepiao(str_data):    # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据    yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)    return yuepiao_list if __name__ == '__main__':    # 设置我们通用的请求头,避免被反爬拦截    headers_ = {        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',        'referer': 'https://www.qidian.com/rank/',        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'    }    url_ = 'https://www.qidian.com/rank/yuepiao/'    # 请求网页源代码    str_data = requests.get(url_, headers=headers_).text    # 使用xpath解析书名    xml_obj = etree.HTML(str_data)    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']    print(get_yuepiao(str_data))    # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']

获取字体加密文件里的对应关系:

安装fonttools库

python起点网月票榜字体反爬的方法是什么

 由于第一次使用fonttools库,在使用时遇到了以下错误 查询百度得知可能是由于字体文件名字有误,把名称换成url上面带的就成功的提取出来键值对了

(也可能是我使用re正则提取font_url时候不规范造成url错误)

只是这个键值对怎么编码对应英文,程序员为何为难程序员呢,不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换

def get_font(xml_obj, headers_):    # 使用xpath与re获取字体加密数据包地址    font_div = xml_obj.xpath("//span/style/text()")[0]    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]    font_name = str(font_url).rsplit('/', 1)[1]    # 获取font文件进行本地保存    font_data = requests.get(font_url, headers_).content    with open(f'{font_name}', 'wb') as f:        f.write(font_data)    # 加载字体文件    font_data = TTFont(f'{font_name}')    # font_data.saveXML('字体.xml')    font_doct01 = font_data.getBestCmap()    font_doct02 = {        'period': '.',        'zero': '0',        'one': '1',        'two': '2',        'three': '3',        'four': '4',        'five': '5',        'six': '6',        'seven': '7',        'eight': '8',        'nine': '9'     }    for i in font_doct01:        font_doct01[i]=font_doct02[font_doct01[i]]    return font_doct01

程序完美运行:

python起点网月票榜字体反爬的方法是什么

总代码如下: 

import re import requestsfrom lxml import etreefrom fontTools.ttLib import TTFont  # 获取书名def get_book_name(xml_obj):    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")    return name_list  # 获取月票加密数据def get_yuepiao(str_data):    # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据    yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)    return yuepiao_list  def get_font(xml_obj, headers_):    # 使用xpath与re获取字体加密数据包地址    font_div = xml_obj.xpath("//span/style/text()")[0]    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]    font_name = str(font_url).rsplit('/', 1)[1]    # 获取font文件进行本地保存    font_data = requests.get(font_url, headers_).content    with open(f'{font_name}', 'wb') as f:        f.write(font_data)    # 加载字体文件    font_data = TTFont(f'{font_name}')    # font_data.saveXML('字体.xml')    font_doct01 = font_data.getBestCmap()    font_doct02 = {        'period': '.',        'zero': '0',        'one': '1',        'two': '2',        'three': '3',        'four': '4',        'five': '5',        'six': '6',        'seven': '7',        'eight': '8',        'nine': '9'     }    for i in font_doct01:        font_doct01[i] = font_doct02[font_doct01[i]]    return font_doct01  def jiemi(miwen_list, font_list):    yuepiao = []    for i in miwen_list:        num = ''        mw_list=re.findall('&#(.*?);', i)         for j in mw_list:            num += font_list[int(j)]        yuepiao.append(int(num))    return yuepiao  if __name__ == '__main__':    # 设置我们通用的请求头,避免被反爬拦截    headers_ = {        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',        'referer': 'https://www.qidian.com/rank/',        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'    }    url_ = 'https://www.qidian.com/rank/yuepiao/'    # 请求网页源代码    str_data = requests.get(url_, headers=headers_).text    # 使用xpath解析书名    xml_obj = etree.HTML(str_data)    # print(get_book_name(    #     xml_obj))  # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']    # print(get_yuepiao(    #     str_data))  # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']    # print(get_font(xml_obj, headers_))    # 书名列表    book_name_list = get_book_name(xml_obj)    # 月票列表    yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))    for i in range(len(book_name_list)):        print(f'{book_name_list[i]}:{yuepiao_list[i]}')

到此,相信大家对“python起点网月票榜字体反爬的方法是什么”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python起点网月票榜字体反爬的方法是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python起点网月票榜字体反爬的方法是什么

本篇内容主要讲解“python起点网月票榜字体反爬的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python起点网月票榜字体反爬的方法是什么”吧!1.解析过程老规矩哈我们先进入起点月
2023-06-21

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录