我的编程空间,编程开发者的网络收藏夹
学习永远不晚

基于Python实现微博抓取GUI程序

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

基于Python实现微博抓取GUI程序

前言

在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果

整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能

微博功能布局

我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变

创建微博 Widget

对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget 即可

我们新建一个 weibo 相关的函数,主要用来界面布局

def weiboWidget(self):
    self.left_button_widget_3 = QtWidgets.QWidget()
    self.weiboWebEngine = QWebEngineView()
    self.weiboWebEngine2 = QWebEngineView()
    self.progressWidget = QtWidgets.QWidget()
    self.ciyunWidget = QtWidgets.QWidget()

我们还看到整体界面有一个词云,该词云是通过 matplotlib 渲染的,所以还需要创建 matplotlib 布局

# matplotlib 绘图区域
self.figure = plt.figure(figsize=(7, 2))
self.canvas = FigureCanvasQTAgg(self.figure)  # 绘图区域放到图层canvas之中
self.gridLayout_weibo.addWidget(self.canvas, 5, 0, 1, 9)  # 图层放到pyqt布局之中

创建微博查询

接下来我们创建一个微博查询函数,同时因为我们这里需要实时更新抓取进度条,所以使用了多线程的方式

def doWeiboQuery(self):
    weibo_link = self.lineEdit_weibo_link.text()
    weibo_name = self.lineEdit_weibo_name.text()
    weibo_page = self.weibo_comboBox.currentText()
    if not weibo_link or not weibo_name:
        QMessageBox.information(self, "Error", "微博链接或者用户名称不能为空",
                                QMessageBox.Yes)
        return
    self.weiboWebEngine.load(QUrl(weibo_link))
    self.qth = WeiBoQueryThread()
    self.qth.update_data.connect(self.weiboPgbUpdate)
    self.qth.draw_ciyun.connect(self.drawCiyun)
    self.qth.weibo_page = weibo_page
    self.qth.weibo_link = weibo_link
    self.qth.weibo_name = weibo_name
    self.qth.start()

而主线程与子线程之间的通信,是使用信号槽的形式

def weiboPgbUpdate(self, data):
    self.pgb.setValue(data)

def drawCiyun(self):
    self.canvas.draw()
    self.toolbar = NavigationToolbar2QT(self.canvas, self)
    self.gridLayout_weibo.addWidget(self.toolbar, 8, 0, 1, 9)

接下来就是创建子进程函数,函数主体是爬取微博的代码

"""子进程微博查询"""
class WeiBoQueryThread(QThread):
    # 创建一个信号,触发时传递当前时间给槽函数
    update_data = pyqtSignal(int)
    draw_ciyun = pyqtSignal()
    weibo_name = None
    weibo_link = None
    weibo_page = None
    total_pv = 0
    timestamp = str(int(time.time()))
    def run(self):
        # 微博爬虫
        try:
            file_name = self.weibo_name + "_" + self.timestamp + 'comment.csv'
            my_weibo = weibo_interface.Weibo(self.weibo_name)
            uid, blog_info = my_weibo.weibo_info(self.weibo_link)
            pv_max = int(self.weibo_page)
            pre_pv = 100 // pv_max
            for i in range(int(self.weibo_page)):
                my_weibo.weibo_comment(uid, blog_info, str(i), file_name)
                self.total_pv += pre_pv
                self.update_data.emit(self.total_pv)
            print("所有微博评论爬取完成!")
            print("开始生成词云")
            font, img_array, STOPWORDS, words = ciyun(file_name)
            wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,
                           stopwords=STOPWORDS, contour_width=3, contour_color='steelblue').generate(words)
            plt.imshow(wc)
            plt.axis("off")
            self.draw_ciyun.emit()
            print("生成词云完成")
        except Exception as e:
            print(e)

而对于微博的具体爬取方法,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可

词云制作

对于词云的制作,我们还是先通过 jieba 进行分词处理,然后使用 wordcloud 库生成词云即可

# 词云相关
def ciyun(file, without_english=True):
    font = r'C:\Windows\Fonts\FZSTK.TTF'
    STOPWORDS = {"回复", "@", "我", "她", "你", "他", "了", "的", "吧", "吗", "在", "啊", "不", "也", "还", "是",
                 "说", "都", "就", "没", "做", "人", "赵薇", "被", "不是", "现在", "什么", "这", "呢", "知道", "邓"}
    df = pd.read_csv(file, usecols=[0])
    df_copy = df.copy()
    df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split())  # 去掉空格
    df_list = df_copy.values.tolist()
    comment = jieba.cut(str(df_list), cut_all=False)
    words = ' '.join(comment)
    if without_english:
        words = re.sub('[a-zA-Z]', '', words)
    img = Image.open('ciyun.png')
    img_array = np.array(img)
    return font, img_array, STOPWORDS, words

由于很多评论当中会存在链接信息,导致制作的词云有很多高权重的英文字符,所有这里也通过正则进行了去英文字符处理

至此,我们这个微博查询功能就完成了~

结果展示

下面我们来看看最终的效果吧

到此这篇关于基于Python实现微博抓取GUI程序的文章就介绍到这了,更多相关Python微博抓取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

基于Python实现微博抓取GUI程序

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python基于百度AI实现抓取表情包

目录一、百度 AI 开放平台的 Key 申请方法二、抓取贴吧表情包三、使用 Baidu-aip本文先抓取网络上的表情图像,然后利用百度 AI 识别表情包上的说明文字,并利用表情文字重命名文件,这样当发表情包时,不需要逐个打开查找,直接根据文
2022-06-02

基于Python怎么编写一个微博抽奖小程序

本篇内容主要讲解“基于Python怎么编写一个微博抽奖小程序”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“基于Python怎么编写一个微博抽奖小程序”吧!开发工具Python版本:3.7.8相关
2023-06-30

微信小程序 | 基于ChatGPT实现模拟面试小程序

Pre:效果预览 ① 选择职位进行面试 ② 根据岗位职责进行回答 一、需求背景 这两年IT互联网行业进入寒冬期,降本增效、互联网毕业、暂停校招岗位的招聘,各类裁员、缩招的情况层出不穷!对于这个市场来说,在经历了互联网资本的疯狂时代
2023-08-16

微信小程序 | 基于ChatGPT实现电影推荐小程序

文章目录 ** 效果预览 ** 1、根据电影明星推荐 2、根据兴趣标签推荐 3、根据电影名推荐 一、需求背景 二、项目原理及架构
2023-08-22

基于python实现的抓取腾讯视频所有电影的爬虫

我搜集了国内10几个电影网站的数据,里面近几十W条记录,用文本没法存,mongodb学习成本非常低,安装、下载、运行起来不会花你5分钟时间。# -*- coding: utf-8 -*- # by awakenjoys. my site:
2022-06-04

用python实现新词发现程序——基于凝

互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。N-Gram加词频最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料中抽取
2023-01-30

基于Python如何实现自动抠图小程序

本篇文章为大家展示了基于Python如何实现自动抠图小程序,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬
2023-06-26

基于Python实现图片九宫格切图程序

这篇文章主要为大家详细介绍了如何利用python和C++代码实现图片九宫格切图程序,文中的示例代码讲解详细,具有一定的借鉴价值,需要的可以参考一下
2023-05-15

如何基于Python实现人像雪景小程序

这篇文章主要介绍了如何基于Python实现人像雪景小程序,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。正文开始制作雪景图:1)素材环境(仅部分)2)运行环境本文涉及的环境:P
2023-06-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录