我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python中如何爬取汽车之家网站上的图片

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python中如何爬取汽车之家网站上的图片

这篇文章主要介绍了python中如何爬取汽车之家网站上的图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

python的数据类型有哪些?

python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和float(浮点型)。2.字符串,分别是str类型和unicode类型。3.布尔型,Python布尔类型也是用于逻辑运算,有两个值:True(真)和False(假)。4.列表,列表是Python中使用最频繁的数据类型,集合中可以放任何数据类型。5. 元组,元组用”()”标识,内部元素用逗号隔开。6. 字典,字典是一种键值对的集合。7. 集合,集合是一个无序的、不重复的数据组合。

随着生活水平的提高和快节奏生活的发展。汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适、喜欢车辆的前提。例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽车网站。本文介绍python爬虫爬取汽车之家网站上的图片的思路和具体演示代码。

一、爬取汽车之家网站上的图片思路分析

分析页面,确认图片的url是否在网页源码。

确认是静态数据后,先找到总的ul标签,在找它里面的li标签,最后在img标签里面的class="lazy" data-src属性,即可获得想要的图片url地址。

通过切割图片url的方式获取图片名字。

完成图片命名后,使用os模块确定图片存放的路径。

二、设置爬虫代理IP

在做爬虫的过程中,如果你爬取的频率过快,不符合人的操作模式。有些网站的反爬虫机制通过监测到你的IP异常,访问频率过高。就会对你进行封IP处理。目前已有比较多的第三方平台专门进行代理IP的服务。

三、爬取汽车之家网站上的图片具体代码

# piplines管道代码from urllib import requestimport osclass VehicleHomePipeline:    def process_item(self, item, spider):        pic_url = item['pic_url']        # 得到图片名字        pic_name = pic_url.split('__')[-1]  # 得到xxx.jpg        # os.path.dirname(__file__) 结果 D:\PycharmProjects\spider\day21\vehicle_home\vehicle_home\        # 创建图片存放路径 xxx\vehicle_home\result_pic        pic_path = os.path.join(os.path.dirname(__file__), 'result_pic')        # 下载图片 xxx\vehicle_home\result_pic\xxx.jpg        request.urlretrieve(pic_url, pic_path + '/' + pic_name)        return item# 爬虫代码import scrapyfrom day21.vehicle_home.vehicle_home.items import VehicleHomeItemclass VehPicSpider(scrapy.Spider):    name = 'veh_pic'    allowed_domains = ['car.autohome.com.cn']    base_url = 'https://car.autohome.com.cn/photolist/series/18/p{}/'    start_urls = [base_url.format(1)]    def parse(self, response):        # 获取图片标签列表        pic_lists = response.xpath('//ul[@id="imgList"]/li')        for pic in pic_lists:            pic_url = pic.xpath('./a/img/@class="lazy" data-src').extract_first()            # 上述获取的url需要进一步补全            pic_url = response.urljoin(pic_url)            item = VehicleHomeItem()            item['pic_url'] = pic_url            print(item)            yield item        # 翻页逻辑        for page in range(2, 3):            next_url = self.base_url.format(page)            yield scrapy.Request(next_url)

感谢你能够认真阅读完这篇文章,希望小编分享的“python中如何爬取汽车之家网站上的图片”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网行业资讯频道,更多相关知识等着你来学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python中如何爬取汽车之家网站上的图片

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python中如何爬取汽车之家网站上的图片

这篇文章主要介绍了python中如何爬取汽车之家网站上的图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的数据类型有哪些?python的数据类型:1. 数字类型
2023-06-14

Python如何爬取汽车之家新闻信息

这篇文章给大家介绍Python如何爬取汽车之家新闻信息,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。为大家介绍一个爬取汽车之家的新闻标题,链接.以及相关图片并下载的Python项目案例,用基本的BeautifulSou
2023-06-02

如何使用Python爬虫爬取网站图片

这篇文章主要介绍了如何使用Python爬虫爬取网站图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。此次python3主要用requests,解析图片网址主要用beautif
2023-06-22

Python中如何爬取sexy的福利图片

本篇文章给大家分享的是有关Python中如何爬取sexy的福利图片,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言各位老..司...小可爱们,大家好呀,相信大家的第一次爬虫是
2023-06-02

Python中如何爬取中医药网站中药的信息

这篇文章给大家介绍Python中如何爬取中医药网站中药的信息,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。现在我们90后很多人都步入了养生状态,开始泡枸杞红枣了,哈哈,经常在朋友圈里面看到,这是不是对自己的一种调侃呢,
2023-06-02

Python中如何用最简单的办法爬取最好看的图片

这篇文章给大家介绍Python中如何用最简单的办法爬取最好看的图片,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前言接下来我们一个很基本的BeautifulSoup爬虫库来写一下爬取图片的过程,下载并存储图片,相信大家
2023-06-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录