位置：首页-资讯-后端开发

python小练习之爬鱿鱼游戏的评价生成词云

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

前言

鱿鱼游戏是什么，相信大家都不陌生了，虽然说博主没看过这部剧，但是还是对豆瓣的评论有点好奇，刚刚好近期学习了selenium，就当练练手了，来吧来吧，爬爬爬。

在这里插入图片描述

分析页面

还是老样子，兄弟们先打开我们最喜欢的google浏览器，点击F12，开启爬虫快乐模式
来到页面，如下图步骤，逐个点击

在这里插入图片描述

然后我们就发现这个页面确实很简单，每一条评论就是包在了class为short的span标签内，那就可以开始写xpath了,如下图

在这里插入图片描述

这样一页的评论就拿到了，接下来就是换页了
有一个小技巧，不需要我们自己写xpath，直接用google浏览器可以生成xpath，如下图所示

在这里插入图片描述

点击这个Copy path这样就拿到了按钮的xpath的内容，然后实现点击页面就可以了，好了就这样分析完了，接下来开始写代码了。

在这里插入图片描述

重要代码

selenium打开豆瓣短评页面


# 待打开的页面
    url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'
    # 躲避智能检测
    option = webdriver.ChromeOptions()
    # option.headless = True
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    option.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(options=option)
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',
                           {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
                            })
    #打开页面
    driver.get(url)

根据xpath来获取评论内容

这里获取评论的xpath语句


//span[@class="short"]

获取评论代码


        options = driver.find_elements(By.XPATH, '//span[@class="short"]')
        for i in options:
           text=text+i.text

实现跳转下一页

下一页的按钮xpath


//*[@id="paginator"]/a

跳转按钮点击代码


        nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')
        nextpage.click()

完整代码

词云生成工具类


# -*- codeing = utf-8 -*-
# @Time : 2021/10/9 20:54
# @Author : xiaow
# @File : wordcloudutil.py
# @Software : PyCharm


from wordcloud import WordCloud
import PIL.Image as image
import numpy as np

import jieba


def trans_CN(text):
    # 接收分词的字符串
    word_list = jieba.cut(text)
    # 分词后在单独个体之间加上空格
    result = " ".join(word_list)
    return result


def getWordCloud(text):
    # print(text)
    text = trans_CN(text)
    # 词云背景图
    mask = np.array(image.open("E://file//pics//mask3.jpg"))
    wordcloud = WordCloud(
        mask=mask,
        # 字体样式文件
        font_path="C:\Windows\Fonts\STXINGKA.TTF",
        background_color='white'
    ).generate(text)
    image_produce = wordcloud.to_image()
    image_produce.show()

评论获取代码


# -*- codeing = utf-8 -*-
# @Time : 2021/6/27 22:29
# @Author : xiaow
# @File : test.py
# @Software : PyCharm
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from api import wordcloudutil
if __name__ == '__main__':
    url = 'https://movie.douban.com/subject/34812928/comments?limit=20&status=P&sort=new_score'
    # 躲避智能检测
    option = webdriver.ChromeOptions()
    # option.headless = True
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    option.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(options=option)
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',
                           {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
                            })
    driver.get(url)
    text=''
    # 获取所有的选项元素
    j=0
    while 1:
        # 定位到新跳转的页面
        time.sleep(1)
        driver.switch_to.window(driver.window_handles[0])

        options = driver.find_elements(By.XPATH, '//span[@class="short"]')
        for i in options:
           text=text+i.text
        time.sleep(2)
        nextpage = driver.find_element(By.XPATH, '//*[@id="paginator"]/a')
        nextpage.click()
        j=j+1
        if j>10:
            break
    print(text)
    wordcloudutil.getWordCloud(text)

成果

最后爬取的评论生成了词云图，如下图所示

在这里插入图片描述

就这样就结束了，还是很简单的

到此这篇关于python小练习之爬鱿鱼游戏的评价生成词云的文章就介绍到这了,更多相关Python 爬取鱿鱼游戏内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

python小练习之爬鱿鱼游戏的评价生成词云

下载Word文档到电脑，方便收藏和打印～

下载Word文档

python小练习之爬鱿鱼游戏的评价生成词云

目录

前言

分析页面

重要代码

selenium打开豆瓣短评页面

根据xpath来获取评论内容

实现跳转下一页

完整代码

成果

python小练习之爬鱿鱼游戏的评价生成词云

相关文章

猜你喜欢

python小练习之爬鱿鱼游戏的评价生成词云

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

python小练习之爬鱿鱼游戏的评价生成词云

目录

前言

分析页面

重要代码

selenium打开豆瓣短评页面

根据xpath来获取评论内容

实现跳转下一页

完整代码

成果

python小练习之爬鱿鱼游戏的评价生成词云

相关文章

猜你喜欢

python小练习之爬鱿鱼游戏的评价生成词云

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复