Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

一、分析链接

上一篇文章指路

一般来说，我们参加某个网站的盖楼抽奖活动，并不是仅仅只参加一个，而是多个盖楼活动一起参加。

这个时候，我们就需要分析评论的链接是怎么区分不同帖子进行评论的，如上篇的刷帖链接，具体格式如下：


https://club.hihonor.com/cn/forum.php?mod=post&action=reply&fid=154&tid=21089001&extra=page%3D1&replysubmit=yes&infloat=yes&handlekey=fastpost&inajax=1

这里面用于区分不同帖子的键是tid，不妨大家可以会看上一篇博文评论帖子的链接，是不是同样有一个21089001的数字。

而经过博主的测试，该网站评论post请求网址除了tid之外，其他数据是一模一样的并不需要变更。所以，我们切换新帖子评论时，只需要替换tid的值就行。

二、切分提取tid

读者可以自行随便打开一个该网站的帖子，我们一般会得到如下形式的字符串帖子链接：


https://club.hihonor.com/cn/thread-26194745-1-1.html

这里，我们需要应用字符串切割知识，来获取链接字符串种的长数字字符串26194745。具体代码如下：


import re
# 获取需要评论的所有网页链接
url_start = "https://club.hihonor.com/cn/forum.php?mod=post&action=reply&fid=4515&tid="
url_end = "&extra=page%3D1&replysubmit=yes&infloat=yes&handlekey=fastpost&inajax=1"

url = []  # 评论网页
txt_url = []  # 提供的网页（格式不同）
f = open("随机帖子.txt", "r", encoding='utf-8')
line = f.readline()  # 读取第一行
while line:
    if re.match(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line):
        txt_url.append(line.strip())  # 列表增加
    line = f.readline()  # 读取下一行

datas = []
headers = []

for i in txt_url:
    url_start = "https://club.hihonor.com/cn/forum.php?mod=post&action=reply&fid=4515&tid="
    url_end = "&extra=page%3D1&replysubmit=yes&infloat=yes&handlekey=fastpost&inajax=1"
    url.append(url_start + i.split("-")[1] + url_end)

这里，博主将一大堆需要评论的链接全部放到文本文件之中，然后通过读取文件获取每一行链接数据（其中用正则表达式判断链接是否合法）。

在通过遍历链接切分获取帖子标识数字字符串，最后进行拼接获取到真正的post评论链接。

随机帖子文档

三、随机提取评论的内容

在众多的网站盖楼活动中，官方网站一般都会检测是否有内容重复，一般同一个账号多次评论重复的内容，肯定会被禁止评论一段时间。

所以，我们需要将评论的内容多样化，比如说这个网站要我们称赞手机性能进行盖楼抽奖，那么我们就需要备用一些评论文字，方便程序随机获取。

具体文字放置在txt文件中，我们通过下面的代码进行读取：


# 获取需要评论的文本内容
txt_contents = []
f = open("回帖文案.txt", "r", encoding='utf-8')
line = f.readline()  # 读取第一行
while line:
    if line.strip() != "":
        txt_contents.append(line.strip())  # 列表增加
    line = f.readline()  # 读取下一行
print(txt_contents)
count = len(txt_contents)

假如，我们是需要参加游戏论坛的盖楼评论活动，那么就可以用下面的文本进行随机提取评论，样本越多，重复性越少。

盖楼评论筛选

四、盖楼刷抽奖

一般来说，这种经常有活动的网站都是需要验证登录的。而各个网站的验证码算法都不相同，怎么自动登录账号，往往就非常关键了。

对于识别验证码，我们要么用百度，腾讯，阿里云提供的文字识别接口，但是博主试过了都无法保证百分百识别成功，而且最高识别准备率都不到50%。

如果需要自己写机器学习识别算法，那么学过机器学习的都应该知道，这个是需要庞大的标记的，哪怕你真的做出来，恐怕人家网站又会换了验证方式。

这种验证码与防验证码一直在进步，花费大量实现标注验证码这些内容，往往会浪费大量的时间，到最后人家可能又换了。

所以，博主的建议还是自己手动输入验证码，也就这一步输入验证码手动，其他的全自动。完整代码如下：


import random
import time
from selenium import webdriver
import requests
import re

# 获取需要评论的文本内容
txt_contents = []
f = open("回帖文案.txt", "r", encoding='utf-8')
line = f.readline()  # 读取第一行
while line:
    if line.strip() != "":
        txt_contents.append(line.strip())  # 列表增加
    line = f.readline()  # 读取下一行
print(txt_contents)
count = len(txt_contents)


# 获取需要评论的所有网页链接
url_start = "https://club.hihonor.com/cn/forum.php?mod=post&action=reply&fid=4515&tid="
url_end = "&extra=page%3D1&replysubmit=yes&infloat=yes&handlekey=fastpost&inajax=1"

url = []  # 评论网页
txt_url = []  # 提供的网页（格式不同）
f = open("随机帖子.txt", "r", encoding='utf-8')
line = f.readline()  # 读取第一行
while line:
    if re.match(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line):
        txt_url.append(line.strip())  # 列表增加
    line = f.readline()  # 读取下一行

datas = []
headers = []

for i in txt_url:
    url_start = "https://club.hihonor.com/cn/forum.php?mod=post&action=reply&fid=4515&tid="
    url_end = "&extra=page%3D1&replysubmit=yes&infloat=yes&handlekey=fastpost&inajax=1"
    url.append(url_start + i.split("-")[1] + url_end)

# 获取账号
usernames = []
f = open("账号.txt", "r", encoding='utf-8')
line = f.readline()  # 读取第一行
while line:
    usernames.append(line.strip())  # 列表增加
    line = f.readline()  # 读取下一行

for name in usernames:
    browser = webdriver.Chrome()
    browser.implicitly_wait(10)
    browser.get("https://club.hihonor.com/cn/")
    time.sleep(5)
    login_text = browser.find_element_by_xpath("/*; q=0.01",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Content-Length": "146",
        "sec-ch-ua": '"Google Chrome";v="87", "\"Not;A\\Brand";v="99", "Chromium";v="87"',
        "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Mobile Safari/537.36",
        "Cookie": cookiestr,
        "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
        "X-Requested-With": "XMLHttpRequest",
    }
    datas.append(data)
    headers.append(header)

while True:
    z = 0
    if int(time.strftime("%H%M%S")) <= 220000:
        url_num = random.sample(range(0, len(url)), len(url))
        for i in url_num:
            j = 1
            for data, header in zip(datas, headers):
                data['message'] = txt_contents[random.randint(0, count - 1)]
                res = requests.post(url=url[i], data=data, headers=header)
                if '回复发布成功' in res.text:
                    print("账号{0}回复成功".format(j))
                else:
                    print(res.text)
                j += 1
                z += 1
            time.sleep(5)
            print("已经评论{0}条".format(str(z)))

如上面代码所示，我们的账号也是用txt文件统一处理的，这样可以达到多个账号同时刷的目的，当然一般网站获奖都不能是同一个IP，这里读者可以通过代理来处理。

其实登录后，随便一个帖子都有posttime与formhash两个值，只要你随机打开一个帖子（url2）就可以通过爬虫知识获取。

到此这篇关于Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)的文章就介绍到这了,更多相关Python实现自动盖楼抽奖内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

目录

一、分析链接

二、切分提取tid

三、随机提取评论的内容

四、盖楼刷抽奖

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

相关文章

猜你喜欢

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

目录

一、分析链接

二、切分提取tid

三、随机提取评论的内容

四、盖楼刷抽奖

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

相关文章

猜你喜欢

Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复