爬虫Crawl Spider模板的用法

2023-06-02 05:29

短信预约 -IT技能 免费直播动态提醒

本篇内容介绍了“爬虫Crawl Spider模板的用法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

1.Spider模板

scrapy默认创建的spider模板就是basic模板，创建spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；
在项目中明确指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；

import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass CsdnSpider(CrawlSpider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['https://www.csdn.net/']    rules = (        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),    )    def parse_item(self, response):        return item

2.CrawlSpider类介绍

CrawlSpider是Spider的派生类，目的是对全站信息爬取更加简单，爬取那些具有一定规则网站的常用的爬虫，它基于Spider并有一些独特属性；

3.rules规则列表

语法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule对象的集合，用于匹配目标网站并排除干扰；
link_extractor：是一个LinkExtractor对象，其定义了如何从爬取到的页面提取链接；
callback：从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数；
cb_kwargs：用于作为**kwargs参数，传递给callback；
follow：是一个布尔值，指爬取了之后，是否还继续从该页面提取链接，然后继续爬下去, 默认是False；
process_links：指定spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤；
process_request：指定处理函数，根据该Rule提取到的每个Request时，该函数将会被调用，可以对Request进行处理，该函数必须返回Request或者None；

4.LinkExtractors

LinkExtractors 的目的是提取链接，每个LinkExtractor有唯一的公共方法是extract_links()，它接收一个 Response对象，并返回一个scrapy.link.Link对象；
Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接；

主要参数：

allow：满足括号中”正则表达式”的值会被提取，如果为空，则全部匹配；
deny：与这个正则表达式(或正则表达式列表)不匹配的url一定不提取；
allow_domains：会被提取的连接的；
deny_domains：一定不会被提取链接的domains；
restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接；

5.爬取CSDN的文章, 且提取URL和文章标题

from scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass DoubanSpider(CrawlSpider):    name = 'csdn'    allowed_domains = ['blog.csdn.net']    start_urls = ['https://blog.csdn.net']    # 指定链接提取的规律    rules = (        # follow:是指爬取了之后，是否还继续从该页面提取链接，然后继续爬下去        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),    )    def parse_item(self, response):        print('-'*100)        print(response.url)        title = response.css('h2::text').extract()[0]        print(title)        print('-' * 100)        return None

“爬虫Crawl Spider模板的用法”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站，小编将为大家输出更多高质量的实用文章！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉