我的编程空间,编程开发者的网络收藏夹
学习永远不晚

node.js如何爬取在线电瓶车信息

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

node.js如何爬取在线电瓶车信息

本文小编为大家详细介绍“node.js如何爬取在线电瓶车信息”,内容详细,步骤清晰,细节处理妥当,希望这篇“node.js如何爬取在线电瓶车信息”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

步骤

第一步,引入需要的库

var cheerio = require('cheerio');var fetch = require('node-fetch');// cheerio 是一个类似浏览器端的jQuery,用来解析HTML的// fetch 用来发送请求

第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的)

// 初始urlvar url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是为了防止有相同的而重复爬去var urls = new Set()// 存储所有数据var data = []

分析网页,思考爬取的方式

思路:

  • 每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好)

  • 第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接,并开始发送请求function ad(arg){// 参数 arg 先不管// 本地化一下需要爬取的链接let url2 = arg || url;// 请求第一页该网页,拿到数据之后,复制给 appvar app = await fetch(url2).then(res=>res.text())// 然后假装用jQuery解析了var $ = cheerio.load(app)// 获取当前页所有电瓶车的a标签var ele = $("#J_PicMode a.pic")// 存放已经爬取过的url,防止重复爬取var old_urls = []var urlapp = []//拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}// 用把URL一块丢给promise处理urlapp = await Promise.all(old_urls)// 处理完成之后,循环加入jQuery?for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}// 至此,一页的数据就爬完了// console.log(data);// 然后开始爬取下一页var nextURL = $(".next").attr('href')// 判断当前页是不是最后一页if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())// 获取下一页的标签,拿到地址,走你ad(urlRoot+nextURL)}return data}ad()

完整代码如下

var cheerio = require('cheerio');var fetch = require('node-fetch');var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"var urlRoot = "http://detail.zol.com.cn"// var url = "http://localhost:3222/app1"var urls = new Set()var data = [] async function ad(arg){let url2 = arg || url;var app = await fetch(url2).then(res=>res.text())var $ = cheerio.load(app)var ele = $("#J_PicMode a.pic")var old_urls = []var urlapp = []for (let i = 0; i < ele.length; i++) {old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))}urlapp = await Promise.all(old_urls)for (let i = 0; i < urlapp.length; i++) {let $2 = cheerio.load(urlapp[i],{decodeEntities: false})data.push({name:$2(".product-model__name").text(),price:$2(".price-type").text()})}var nextURL = $(".next").attr('href')if (nextURL){let next = await fetch(urlRoot+nextURL).then(res=>res.text())ad(urlRoot+nextURL)}return data}ad()

读到这里,这篇“node.js如何爬取在线电瓶车信息”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

node.js如何爬取在线电瓶车信息

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

node.js如何爬取在线电瓶车信息

本文小编为大家详细介绍“node.js如何爬取在线电瓶车信息”,内容详细,步骤清晰,细节处理妥当,希望这篇“node.js如何爬取在线电瓶车信息”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。步骤第一步,引入需要的
2023-07-04

如何使用node.js爬取在线电瓶车信息

本篇内容介绍了“如何使用node.js爬取在线电瓶车信息”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!步骤第一步,引入需要的库var che
2023-07-04

node.js如何爬取中关村的在线电瓶车信息

这篇文章主要介绍“node.js如何爬取中关村的在线电瓶车信息”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“node.js如何爬取中关村的在线电瓶车信息”文章能帮助大家解决问题。步骤第一步,引入需要
2023-06-17

Python如何爬取汽车之家新闻信息

这篇文章给大家介绍Python如何爬取汽车之家新闻信息,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。为大家介绍一个爬取汽车之家的新闻标题,链接.以及相关图片并下载的Python项目案例,用基本的BeautifulSou
2023-06-02

c#如何爬取优酷电影信息

这篇文章将为大家详细讲解有关c#如何爬取优酷电影信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。爬虫步骤加载页面解析数据保存数据继第一篇文档后的爬虫进阶,本文章主要是对上一篇的进阶。实现的功能主要为:1
2023-06-06

Python如何通过xpath属性爬取豆瓣热映的电影信息

本篇文章给大家分享的是有关Python如何通过xpath属性爬取豆瓣热映的电影信息,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言声明一下:本文主要是研究使用,没有别的用途。
2023-06-25

如何使用Python爬虫实现抓取电影网站信息并入库

这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一.环境搭建1.下载安装包访问 Python官网下载地址:https://www.python.org/
2023-06-29

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录