我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用python实现垂直爬虫系统

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用python实现垂直爬虫系统

小编给大家分享一下如何使用python实现垂直爬虫系统,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!

html_downloader

from urllib import requestdef download(url):    if url is None:        return    response = request.urlopen(url)    if response.getcode() != 200:        return None    return response.read()

html_outeputer

data_list = []def collect_data(data):    data_list.append(data)def output_html():    fout = open('output.html', 'w')    fout.write('<html>')    fout.write('<body>')    fout.write('<table>')    for dataitem in data_list:        fout.write('<tr>')        fout.write('<td>%s</td>' % dataitem['url'])        fout.write('<td>%s</td>' % dataitem['title'])        fout.write('<td>%s</td>' % dataitem['datetime'])        fout.write('<td>%s</td>' % dataitem['visitcount'])        fout.write('</tr>')    fout.write('</table>')    fout.write('</body>')    fout.write('</html>')    fout.close()

html_parser

import refrom bs4 import BeautifulSoupfrom urllib.parse import urljoindef get_new_urls(page_url, soup):    new_urls = set()    links = soup.find_all('a', href=re.compile(r"/\d+/\d+/\w+/page\.htm"))    for link in links:        new_url = link['href']        new_full_url = urljoin(page_url, new_url)        new_urls.add(new_full_url)    return new_urlsdef get_new_data(page_url, soup):    res_data = {}    title_node = soup.find('h2', class_='arti-title')    if title_node is None:        return res_data    res_data['title'] = title_node.get_text()    datetime_node = soup.find('span', class_='arti-update')    res_data['datetime'] = datetime_node.get_text()    visitcount_node = soup.find('span', class_='WP_VisitCount')    res_data['visitcount'] = visitcount_node.get_text()    res_data['url'] = page_url    return res_datadef parse(page_url, html_cont):    if page_url is None or html_cont is None:        return    soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')    new_urls = get_new_urls(page_url, soup)    new_data = get_new_data(page_url, soup)    return new_urls, new_data

spider_main

import urls_manager, html_downloader, \    html_parser, html_outputerdef craw(root_url):    count = 1    urls_manager.add_new_url(root_url)    #启动爬虫循环    while urls_manager.has_new_url():        new_url = urls_manager.get_new_url()        print('craw %d : %s' % (count, new_url))        html_cont = html_downloader.download(new_url)        new_urls, new_data = html_parser.parse(new_url, html_cont)        urls_manager.add_new_urls(new_urls)        if new_data:            html_outputer.collect_data(new_data)        if count == 10:            break        count = count + 1    html_outputer.output_html()if __name__ == '__main__':    root_url = 'http://news.zzuli.edu.cn/'    craw(root_url)import urls_manager, html_downloader, \    html_parser, html_outputerdef craw(root_url):    count = 1    urls_manager.add_new_url(root_url)    #启动爬虫循环    while urls_manager.has_new_url():        new_url = urls_manager.get_new_url()        print('craw %d : %s' % (count, new_url))        html_cont = html_downloader.download(new_url)        new_urls, new_data = html_parser.parse(new_url, html_cont)        urls_manager.add_new_urls(new_urls)        if new_data:            html_outputer.collect_data(new_data)        if count == 10:            break        count = count + 1    html_outputer.output_html()if __name__ == '__main__':    root_url = 'http://news.zzuli.edu.cn/'    craw(root_url)

test_64

from bs4 import BeautifulSoupimport rehtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a time there were three little sisters; and their names were<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;and they lived at the bottom of a well.</p><p class="story">...</p>"""soup = BeautifulSoup(html_doc, 'html.parser')print('获取所有链接')links = soup.find_all('a')for link in links:    print(link.name, link['href'], link.get_text())print('获取lacie链接')link_node = soup.find('a', href='http://example.com/lacie')print(link_node.name, link_node['href'], link_node.get_text())print('正则匹配')link_node = soup.find('a', href=re.compile(r'ill'))print(link_node.name, link_node['href'], link_node.get_text())print('获取P段落文字')p_node = soup.find('p', class_='title')print(p_node.name, p_node.get_text())

urls_manager

new_urls = set()old_urls = set()def add_new_url(url):    if url is None:        return    if url not in new_urls and url not in old_urls:        new_urls.add(url)def add_new_urls(urls):    if urls is None or len(urls) == 0:        return    for url in urls:        add_new_url(url)def get_new_url():    new_url = new_urls.pop()    old_urls.add(new_url)    return new_urldef has_new_url():    return len(new_urls) != 0

看完了这篇文章,相信你对“如何使用python实现垂直爬虫系统”有了一定的了解,如果想了解更多相关知识,欢迎关注编程网行业资讯频道,感谢各位的阅读!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用python实现垂直爬虫系统

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用python实现垂直爬虫系统

小编给大家分享一下如何使用python实现垂直爬虫系统,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!html_downloaderfrom urllib import requestdef download(url):
2023-06-29

python中如何使用Scrapy实现定时爬虫

这篇文章将为大家详细讲解有关python中如何使用Scrapy实现定时爬虫,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整
2023-06-14

C#如何使用selenium实现爬虫

本文小编为大家详细介绍“C#如何使用selenium实现爬虫”,内容详细,步骤清晰,细节处理妥当,希望这篇“C#如何使用selenium实现爬虫”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。一、介绍:Seleni
2023-07-02

如何使用python爬虫实现最新12306抢票

这篇文章将为大家详细讲解有关如何使用python爬虫实现最新12306抢票,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1.环境python 3.7谷歌浏览器chromedriver.exe(浏览器驱动程
2023-06-26

如何使用Python爬虫实现自动下载图片

小编给大家分享一下如何使用Python爬虫实现自动下载图片,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和floa
2023-06-14

Python爬虫Requests库如何使用

本篇内容主要讲解“Python爬虫Requests库如何使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫Requests库如何使用”吧!1、安装 requests 库因为学习过
2023-07-06

Python如何实现短视频爬虫

这篇文章主要介绍了Python如何实现短视频爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。网站地址在代码里面,大家用心一下就能看到了。使用的软件python 3.8pyc
2023-06-25

如何使用python网络爬虫基于selenium爬取斗鱼直播信息

这篇文章给大家分享的是有关如何使用python网络爬虫基于selenium爬取斗鱼直播信息的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、本文使用的第三方包和工具python 3.8 谷歌浏览器seleniu
2023-06-29

如何使用css实现垂直居中任何元素

这篇文章给大家分享的是有关如何使用css实现垂直居中任何元素的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。垂直居中任何元素 (vertical-center anything)在没有准备使用CSSGrid 布局的
2023-06-27

python 爬虫如何使用代理IP

作为一名数据采集者,我们都是知道,一个网站要是频繁访问都会被封IP,那要怎么解决这个问题呢?不可能一直频繁的更换设备,不光数据不能同步,这些设备的成本也是无法预计的,所以这个时候就需要代理IP了。以亿牛云(https://www.16yun
2023-06-02

如何使用Python爬虫爬取网站图片

这篇文章主要介绍了如何使用Python爬虫爬取网站图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。此次python3主要用requests,解析图片网址主要用beautif
2023-06-22

如何使用Scrapy-Redis实现分布式爬虫

Scrapy-Redis是一个Scrapy框架的插件,可以用于实现分布式爬虫。下面是使用Scrapy-Redis实现分布式爬虫的步骤:安装Scrapy-Redis插件:pip install scrapy-redis在Scrapy项目的se
如何使用Scrapy-Redis实现分布式爬虫
2024-05-15

Python网络爬虫requests库如何使用

这篇文章主要讲解了“Python网络爬虫requests库如何使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python网络爬虫requests库如何使用”吧!1. 什么是网络爬虫简单来
2023-07-06

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录