我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么使用Node.js开发一个简单图片爬取功能

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么使用Node.js开发一个简单图片爬取功能

这篇文章主要介绍“怎么使用Node.js开发一个简单图片爬取功能”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用Node.js开发一个简单图片爬取功能”文章能帮助大家解决问题。

怎么使用Node.js开发一个简单图片爬取功能

正文

node-crawler 是一个轻量级的 node.js 爬虫工具,兼顾了高效与便利性,支持分布式爬虫系统,支持硬编码,支持http前级代理。而且,它完全是由 nodejs 写成,天生支持非阻塞异步IO,为爬虫的流水线作业机制提供了极大便利。同时支持对 DOM 的快速选择(可以使用 jQuery 语法),对于抓取网页的特定部分的任务可以说是杀手级功能,无需再手写正则表达式,提高爬虫开发效率。

安装引入

我们先新建一个项目,在里面创建index.js作为入口文件。

然后进行爬虫库  node-crawler 的安装。

# PNPM
pnpm add crawler
# NPM
npm i -S crawler
# Yarn 
yarn add crawler

然后用过 require 引入进去。

// index.js
const Crawler = require("crawler");

创建实例

// index.js
let crawler = new Crawler({
    timeout:10000,
    jQuery:true,
})
function getImages(uri) {
    crawler.queue({
        uri,
        callback: (err, res, done) => {
            if (err) throw err;
        }
    })
}

从现在我们将开始写一个拿到html页面的图片的方法,crawler 实例化后,在其队列中主要是为了写入链接和回调方法。在每个请求处理完毕后将调这个回调函数。

这里还要说明一下, Crawler  使用了 request 库,所以 Crawler 可供配置的参数列表是 request 库的参数的超集,即 request 库中所有的配置在 Crawler 中均适用。

元素捕获

刚才或许你也看到了 jQuery 这个参数,你猜的没错,它可以使用  jQuery  的语法去捕获 DOM 元素的。

// index.js
let data = []
function getImages(uri) {
    crawler.queue({
        uri,
        callback: (err, res, done) => {
            if (err) throw err;
            let $ = res.$;
            try {
                let $imgs = $("img");
                Object.keys($imgs).forEach(index => {
                    let img = $imgs[index];
                    const { type, name, attribs = {} } = img;
                    let class="lazy" data-src = attribs.class="lazy" data-src || "";
                    if (type === "tag" && class="lazy" data-src && !data.includes(class="lazy" data-src)) {
                        let fileclass="lazy" data-src = class="lazy" data-src.startsWith('http') ? class="lazy" data-src : `https:${class="lazy" data-src}`
                        let fileName = class="lazy" data-src.split("/")[class="lazy" data-src.split("/").length-1]
                        downloadFile(fileclass="lazy" data-src, fileName) // 下载图片的方法
                        data.push(class="lazy" data-src)
                    }
                });
            } catch (e) {
                console.error(e);
                done()
            }
            done();
        }
    })
}

可以看到刚才通过 $ 来完成对请求中 img 标签的捕获。然后我们下面的逻辑去处理补全图片的链接和剥离出名字为了后面可以保存取名用。这里还定义了一个数组,它的目的是保存已经捕获到的图片地址,如果下次捕获发现同一个图片地址,那么就不再重复处理下载了。

以下是掘金首页html用 $("img") 捕获到的信息打印:

怎么使用Node.js开发一个简单图片爬取功能

下载图片

下载之前我们还要安装一个 nodejs 包—— axios ,是的你没看错,axios 不仅提供给前端,它也可以给后端去使用。但是因为下载图片要把它处理成数据流,所以把 responseType 设置成 stream 。然后才可以用 pipe 方法保存数据流文件。

const { default: axios } = require("axios");
const fs = require('fs');

async function downloadFile(uri, name) {
    let dir = "./imgs"
    if (!fs.existsSync(dir)) {
        await fs.mkdirSync(dir)
    }
    let filePath = `${dir}/${name}`
    let res = await axios({
        url: uri,
        responseType: 'stream'
    })
    let ws = fs.createWriteStream(filePath)
    res.data.pipe(ws)
    res.data.on("close",()=>{
        ws.close();
    })
}

因为可能图片很多,所以要统一放在一个文件夹下,就要判断有没有这个文件夹如果没有就创建一个。然后通过 createWriteStream 方法来把获取到的数据流以文件的形式保存到文件夹里面。

然后我们可以尝试一下,比如我们捕获用一下掘金首页html下的图片:

// index.js
getImages("https://juejin.cn/")

执行后发现就可以发现已经捕获到静态html里面的所有图片了。

node index.js

怎么使用Node.js开发一个简单图片爬取功能

关于“怎么使用Node.js开发一个简单图片爬取功能”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网行业资讯频道,小编每天都会为大家更新不同的知识点。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么使用Node.js开发一个简单图片爬取功能

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何利用MySQL和C++开发一个简单的图片水印功能

如何利用MySQL和C++开发一个简单的图片水印功能导言:在现代社会中,随着图片的广泛应用,图片的保护和认证问题日益突出。其中,图片水印技术是一种常见的保护图片内容的方式。本文将介绍如何利用MySQL和C++开发一个简单的图片水印功能,并提
2023-10-22

如何利用MySQL和C++开发一个简单的图片处理功能

要利用MySQL和C++开发一个简单的图片处理功能,你可以按照以下步骤进行:1. 创建一个MySQL数据库,并设计一个表来存储图片的相关信息,例如图片名称、路径、大小等。2. 在C++中,使用MySQL Connector/C++库来连接M
2023-10-21

怎么使用nodejs实现一个简单的网页爬虫功能

这篇文章主要介绍了怎么使用nodejs实现一个简单的网页爬虫功能,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。网页源码  使用http.get()方法获取网页源码,以hao1
2023-06-06

怎么使用Java IO流和网络制作一个简单的图片爬虫

这篇文章主要介绍“怎么使用Java IO流和网络制作一个简单的图片爬虫”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用Java IO流和网络制作一个简单的图片爬虫”文章能帮助大家解决问题。Ja
2023-07-05

Android开发中怎么实现一个图片下载功能

本篇文章给大家分享的是有关Android开发中怎么实现一个图片下载功能,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.普通的下载方式布局文件:2023-05-31

Android开发中怎么实现一个图片上传功能

本篇文章给大家分享的是有关Android开发中怎么实现一个图片上传功能,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。代码实现:private void showDialog()
2023-05-31

如何使用MySQL和JavaScript实现一个简单的图片轮播功能

使用MySQL数据库和JavaScript实现图片轮播。教程涵盖了数据库表设置、JavaScript客户端脚本(获取图像URL、显示轮播图像、设置轮播功能)、PHP后端脚本(获取图像URL列表)以及CSS样式。完整HTML代码提供了示例页面。
如何使用MySQL和JavaScript实现一个简单的图片轮播功能
2024-04-11

如何使用MySQL和JavaScript实现一个简单的图片轮播功能

要实现一个简单的图片轮播功能,你可以使用MySQL存储图片的相关信息,然后使用JavaScript来实现轮播效果。下面是一个使用MySQL和JavaScript实现简单图片轮播的步骤:1. 创建一个MySQL数据库,包含一个图片表,其中包含
2023-10-20

如何使用MySQL和Ruby实现一个简单的图片上传功能

如何使用MySQL和Ruby实现一个简单的图片上传功能简介:图片上传功能是现代web应用中非常常见的功能之一。通过该功能,用户可以将自己的图片上传到服务器上并在需要的时候进行展示或者分享。本文将介绍如何使用MySQL和Ruby实现一个简单的
2023-10-22

怎么使用JS实现简单的图片切换功能

这篇“怎么使用JS实现简单的图片切换功能”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“怎么使用JS实现简单的图片切换功能”文
2023-07-02

如何使用MySQL与Python开发一个简单的登录功能

使用MySQL和Python开发简单的登录功能这篇教程介绍如何使用MySQL数据库和Python语言实现简单的用户登录功能。它涵盖了设置数据库、安装必需的Python库以及编写用于验证用户凭据的Python代码。通过逐步讲解,用户可以了解如何建立一个基本而有效的登录机制。
如何使用MySQL与Python开发一个简单的登录功能
2024-04-11

如何使用MySQL与Python开发一个简单的登录功能

要使用MySQL和Python开发一个简单的登录功能,需要以下步骤:1. 安装MySQL和Python的相关库:- 安装MySQL数据库:根据操作系统的不同,下载并安装MySQL数据库。- 安装Python的MySQL库:在命令行中运行pi
2023-10-20

使用canvas怎么实现一个图片打码功能

使用canvas怎么实现一个图片打码功能?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。首先创建一个html文件, 并引入 vue 和 elelment-ui(注
2023-06-09

如何使用MySQL和Ruby on Rails开发一个简单的贴吧功能

要使用MySQL和Ruby on Rails开发一个简单的贴吧功能,你可以按照以下步骤进行:1. 安装和配置Ruby和Ruby on Rails:- 确保你已经安装了Ruby和RubyGems。你可以在https://www.ruby-la
2023-10-10

如何使用MySQL和Ruby on Rails开发一个简单的留言板功能

如何使用MySQL和Ruby on Rails开发一个简单的留言板功能留言板是一个非常常见的网站功能,它允许用户发布留言并与其他人进行互动和讨论。在本篇文章中,我将向你展示如何使用MySQL和Ruby on Rails来开发一个简单的留言板
2023-10-22

如何使用MySQL和Ruby on Rails开发一个简单的音乐推荐功能

要使用MySQL和Ruby on Rails开发一个简单的音乐推荐功能,你可以按照以下步骤进行操作:1. 配置项目:创建一个新的Ruby on Rails项目,并确保你的项目已经设置好使用MySQL数据库。你可以在config/databa
2023-10-20

如何使用MySQL和Ruby on Rails开发一个简单的博客搜索功能

要开发一个简单的博客搜索功能,你需要使用MySQL作为数据库,并使用Ruby on Rails框架来构建应用程序。下面是一些步骤来实现这个功能:1. 配置数据库:在Rails应用程序的config/database.yml文件中,配置MyS
2023-10-20

如何使用MySQL和Ruby on Rails开发一个简单的社交网络功能

如何使用MySQL和Ruby on Rails开发一个简单的社交网络功能在当今数字时代,社交网络已经成为人们生活的一部分。为了满足用户的需求,开发一个简单但功能齐全的社交网络应用是非常有必要的。本文将介绍如何使用MySQL和Ruby on
2023-10-22

怎么使用java和redis实现一个简单的热搜功能

这篇文章主要介绍“怎么使用java和redis实现一个简单的热搜功能”,在日常操作中,相信很多人在怎么使用java和redis实现一个简单的热搜功能问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用jav
2023-06-29

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录