位置：首页-资讯-后端开发

python起点网月票榜字体反爬案例

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

前言：

字体反爬是什么个意思？就是网站把自己的重要数据不直接的在源代码中呈现出来，而是通过相应字体的编码，与一个字体文件（一般后缀为ttf或woff）把相应的编码转换为自己想要的数据，知道了原理，接下来开始展示才艺

1.解析过程

老规矩哈我们先进入起点月票榜f12调试，找到书名与其对应的月票数据所在，使用xpath尝试提取

可以看到刚刚好20条数据，接下来找月票数据：

这是什么鬼xpath检索出来20条数据但是数据为空，element中数据显示为未知符号，这貌似没有数据呀，这时我们观察源代码，搜索关键字font-face可以看到这种看不懂的编码，这就是前言中所说的字体的编码。

我们接下来找字体文件数据包

woff文件并且请求地址与这上面看到的地址一样，不过这里需要注意的是每次请求地址都不一样，文件名字也不一样，所以我们需要每爬取一次都要单独爬取一次字体加密数据，字体加密数据可以使用第三方库fonttools进行解析

我们现在拥有：

1.书名

2.月票数据的密文

3.月票数据密文对应的字体文件

2.开始敲代码

首先定义获取书名的函数get_book_name并进行测试:


import requests
from lxml import etree
 
 
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
 
if __name__ == '__main__':
    # 设置我们通用的请求头，避免被反爬拦截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']

2.请求月票数据密文，并进行测试：


import re
 
import requests
from lxml import etree
 
# 获取书名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
# 获取月票加密数据
def get_yuepiao(str_data):
    # 这里我们之前分析发现xpath取出来的数据是空值，我们直接对网页源代码使用re正则匹配获取加密数据
    yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
    return yuepiao_list
 
if __name__ == '__main__':
    # 设置我们通用的请求头，避免被反爬拦截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
    print(get_yuepiao(str_data))    # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']

3.获取字体加密文件里的对应关系：

安装fonttools库

由于第一次使用fonttools库，在使用时遇到了以下错误查询百度得知可能是由于字体文件名字有误，把名称换成url上面带的就成功的提取出来键值对了

（也可能是我使用re正则提取font_url时候不规范造成url错误）

只是这个键值对怎么编码对应英文，程序员为何为难程序员呢，不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换


def get_font(xml_obj, headers_):
    # 使用xpath与re获取字体加密数据包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 获取font文件进行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加载字体文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字体.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i]=font_doct02[font_doct01[i]]
    return font_doct01

程序完美运行：

总代码如下：


import re
 
import requests
from lxml import etree
from fontTools.ttLib import TTFont
 
 
# 获取书名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
 
# 获取月票加密数据
def get_yuepiao(str_data):
    # 这里我们之前分析发现xpath取出来的数据是空值，我们直接对网页源代码使用re正则匹配获取加密数据
    yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
    return yuepiao_list
 
 
def get_font(xml_obj, headers_):
    # 使用xpath与re获取字体加密数据包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 获取font文件进行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加载字体文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字体.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i] = font_doct02[font_doct01[i]]
    return font_doct01
 
 
def jiemi(miwen_list, font_list):
    yuepiao = []
    for i in miwen_list:
        num = ''
        mw_list=re.findall('&#(.*?);', i)
 
        for j in mw_list:
            num += font_list[int(j)]
        yuepiao.append(int(num))
    return yuepiao
 
 
if __name__ == '__main__':
    # 设置我们通用的请求头，避免被反爬拦截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    # print(get_book_name(
    #     xml_obj))  # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
    # print(get_yuepiao(
    #     str_data))  # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']
    # print(get_font(xml_obj, headers_))
    # 书名列表
    book_name_list = get_book_name(xml_obj)
    # 月票列表
    yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
    for i in range(len(book_name_list)):
        print(f'{book_name_list[i]}:{yuepiao_list[i]}')

到此这篇关于python起点网月票榜字体反爬案例的文章就介绍到这了,更多相关python字体反爬内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

python起点网月票榜字体反爬案例

下载Word文档到电脑，方便收藏和打印～

下载Word文档

python起点网月票榜字体反爬案例

目录

前言：

1.解析过程

2.开始敲代码

python起点网月票榜字体反爬案例

相关文章

猜你喜欢

python起点网月票榜字体反爬案例

python起点网月票榜字体反爬的方法是什么

Python字体反爬实战案例分享

python政策网字体反爬实例(附完整代码)

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

python起点网月票榜字体反爬案例

目录

前言：

1.解析过程

2.开始敲代码

python起点网月票榜字体反爬案例

相关文章

猜你喜欢

python起点网月票榜字体反爬案例

python起点网月票榜字体反爬的方法是什么

Python字体反爬实战案例分享

python政策网字体反爬实例(附完整代码)

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复