我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么在Django中使用Scrapy爬取数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么在Django中使用Scrapy爬取数据

怎么在Django中使用Scrapy爬取数据?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

在django项目根目录位置创建scrapy项目,django_12是django项目,ABCkg是scrapy爬虫项目,app1是django的子应用

怎么在Django中使用Scrapy爬取数据

在Scrapy的settings.py中加入以下代码

import osimport syssys.path.append(os.path.dirname(os.path.abspath('.')))os.environ['DJANGO_SETTINGS_MODULE'] = 'django_12.settings'  # 项目名.settingsimport djangodjango.setup()

编写爬虫,下面代码以ABCkg为例,abckg.py

# -*- coding: utf-8 -*-import scrapyfrom ABCkg.items import AbckgItem class AbckgSpider(scrapy.Spider):  name = 'abckg'  #爬虫名称  allowed_domains = ['www.abckg.com'] # 允许爬取的范围  start_urls = ['http://www.abckg.com/'] # 第一次请求的地址  def parse(self, response):    print('返回内容:{}'.format(response))    """    解析函数    :param response: 响应内容    :return:    """    listtile = response.xpath('//*[@id="container"]/div/div/h3/a/text()').extract()    listurl = response.xpath('//*[@id="container"]/div/div/h3/a/@href').extract()     for index in range(len(listtile)):      item = AbckgItem()      item['title'] = listtile[index]      item['url'] = listurl[index]      yield scrapy.Request(url=listurl[index],callback=self.parse_content,method='GET',dont_filter=True,meta={'item':item})    # 获取下一页    nextpage = response.xpath('//*[@id="container"]/div[1]/div[10]/a[last()]/@href').extract_first()    print('即将请求:{}'.format(nextpage))    yield scrapy.Request(url=nextpage,callback=self.parse,method='GET',dont_filter=True)    # 获取详情页  def parse_content(self,response):    item = response.meta['item']    item['content'] = response.xpath('//*[@id="post-1192"]/dd/p').extract()    print('内容为:{}'.format(item))    yield item

scrapy中item.py 中引入django模型类

 pip install scrapy-djangoitem
from app1 import modelsfrom scrapy_djangoitem import DjangoItemclass AbckgItem(DjangoItem):  # define the fields for your item here like:  # name = scrapy.Field()      # 普通scrapy爬虫写法  # title = scrapy.Field()  # url = scrapy.Field()  # content = scrapy.Field()  django_model = models.ABCkg   # 注入django项目的固定写法,必须起名为django_model =django中models.ABCkg表

pipelines.py中调用save()

import jsonfrom pymongo import MongoClient# 用于接收parse函数发过来的itemclass AbckgPipeline(object):  # i = 0  def open_spider(self,spider):    # print('打开文件')    if spider.name == 'abckg':      self.f = open('abckg.json',mode='w')  def process_item(self, item, spider):    # # print('ABC管道接收:{}'.format(item))    # if spider.name == 'abckg':    #   self.f.write(json.dumps(dict(item),ensure_ascii=False))    # # elif spider.name == 'cctv':    # #   img = requests.get(item['img'])    # #   if img != '':    # #     with open('图片\%d.png'%self.i,mode='wb')as f:    # #       f.write(img.content)    # #   self.i += 1    item.save()    return item  # 将item传给下一个管道执行  def close_spider(self,spider):    # print('关闭文件')    self.f.close()

在django中models.py中一个模型类,字段对应爬取到的数据,选择适当的类型与长度

class ABCkg(models.Model):  title = models.CharField(max_length=30,verbose_name='标题')  url = models.CharField(max_length=100,verbose_name='网址')  content = models.CharField(max_length=200,verbose_name='内容')  class Meta:    verbose_name_plural = '爬虫ABCkg'  def __str__(self):    return self.title

通过命令启动爬虫:scrapy crawl 爬虫名称

django进入admin后台即可看到爬取到的数据。

关于怎么在Django中使用Scrapy爬取数据问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注编程网行业资讯频道了解更多相关知识。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么在Django中使用Scrapy爬取数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么在Django中使用Scrapy爬取数据

怎么在Django中使用Scrapy爬取数据?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在django项目根目录位置创建scrapy项目,django_12是django
2023-06-14

怎么在Python中使用Scrapy爬取豆瓣图片

本篇文章为大家展示了怎么在Python中使用Scrapy爬取豆瓣图片,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1.首先我们在命令行进入到我们要创建的目录,输入 scrapy startproje
2023-06-15

怎么在python中使用xpath爬取网上数据

本篇文章给大家分享的是有关怎么在python中使用xpath爬取网上数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.设计数据库from django.db import
2023-06-06

怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

这篇文章主要介绍“怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库”,在日常操作中,相信很多人在怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用
2023-06-17

怎么使用python爬虫爬取数据

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!python爬出六部曲第一步:安装reques
2023-06-29

使用python怎么爬取数据

使用python怎么爬取数据?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,P
2023-06-14

怎么使用pycharm爬取数据

要使用PyCharm爬取数据,可以按照以下步骤进行操作:1. 创建一个新的PyCharm项目:打开PyCharm,点击“Create New Project”或者选择“File” -> “New Project”,然后设置项目名称和路径。2
2023-08-17

怎么在python中利用Selenium+Requests爬取数据

本篇文章给大家分享的是有关怎么在python中利用Selenium+Requests爬取数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python的数据类型有哪些?pyth
2023-06-14

怎么使用python爬虫爬取二手房数据

这篇文章主要介绍怎么使用python爬虫爬取二手房数据,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和flo
2023-06-14

如何用python进行scrapy管道学习爬取在行高手数据

如何用python进行scrapy管道学习爬取在行高手数据,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬取目标站点分析本次采集的目标站点为:https://www.zai
2023-06-25

怎么在python中使用scrapy框架处理多页数据

怎么在python中使用scrapy框架处理多页数据?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,
2023-06-14

怎么用Python爬取数据

这篇文章主要介绍“怎么用Python爬取数据”,在日常操作中,相信很多人在怎么用Python爬取数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python爬取数据”的疑惑有所帮助!接下来,请跟着小编
2023-06-16

怎么使用AJAX获取Django后端数据

这篇文章主要介绍了怎么使用AJAX获取Django后端数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。使用Django服务网页时,只要用户执行导致页面更改的操作,即使该更改
2023-06-15

使用python怎么爬取谷歌趋势数据

本篇文章为大家展示了使用python怎么爬取谷歌趋势数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pi
2023-06-14

Python中怎么爬取音频数据

本篇文章为大家展示了Python中怎么爬取音频数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 分析频道3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。比
2023-06-17

怎么用python爬取网站数据

正文一、工具准备Python库:requests、BeautifulSoup4、lxml开发环境:Python3.x、IDE二、步骤详解发送HTTP请求,解析HTML响应提取数据,处理数据解决常见问题:受限网站、复杂结构、动态页面、封禁三、高级技巧多线程爬取、数据库存储分布式爬取、云服务四、应用场景价格比较、新闻聚合社交媒体分析、电子邮件营销搜索引擎优化
怎么用python爬取网站数据
2024-04-13

怎么用python爬取网站数据

要用Python爬取网站数据,可以使用Python的爬虫库来实现。下面是一个简单的示例,使用`requests`库来获取网页内容,使用`BeautifulSoup`库来解析网页。首先,需要先安装`requests`和`beautifulso
2023-09-07

使用Python怎么爬取某文库文档数据

使用Python怎么爬取某文库文档数据?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本
2023-06-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录