我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用Puppeteer进行新闻网站数据抓取和聚合

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用Puppeteer进行新闻网站数据抓取和聚合

亿牛云代理

导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
使用Puppeteer进行数据抓取和聚合的基本步骤如下:

  1. 安装Puppeteer库和相关依赖
  2. 创建一个Puppeteer实例,并启动一个浏览器
  3. 打开一个新的页面,并设置代理IP和请求头
  4. 访问目标网站,并等待页面加载完成
  5. 使用选择器或XPath定位元素,并获取元素的属性或文本
  6. 将获取的数据存储到本地文件或数据库中
  7. 关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

// 在命令行中执行以下命令,安装Puppeteer库npm install puppeteer// 安装http-proxy-agent模块,用于设置代理IPnpm install http-proxy-agent// 安装cheerio模块,用于解析HTML文档npm install cheerio

创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

// 引入puppeteer模块const puppeteer = require('puppeteer');// 创建一个异步函数,用于执行爬虫任务(async () => {  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面  const browser = await puppeteer.launch({ headless: false });})();

打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

// 引入http-proxy-agent模块,用于创建代理对象const HttpProxyAgent = require('http-proxy-agent');// 创建一个异步函数,用于执行爬虫任务(async () => {  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面  const browser = await puppeteer.launch({ headless: false });  // 打开一个新的页面  const page = await browser.newPage();  // 设置请求头,模拟正常的浏览器行为  await page.setExtraHTTPHeaders({    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',    'User-Agent':      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',  });  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码  await page.authenticate({    username: '16YUN',    password: '16IP',    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),  });})();

访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

// 创建一个异步函数,用于执行爬虫任务(async () => {  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面  const browser = await puppeteer.launch({ headless: false });  // 打开一个新的页面  const page = await browser.newPage();  // 设置请求头,模拟正常的浏览器行为  await page.setExtraHTTPHeaders({    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',    'User-Agent':      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',  });  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码  await page.authenticate({    username: '16YUN',    password: '16IP',    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),  });  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发  await page.goto('https://news.163.com/', {    waitUntil: 'networkidle2',  });})();

使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

// 创建一个异步函数,用于执行爬虫任务(async () => {  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面  const browser = await puppeteer.launch({ headless: false });  // 打开一个新的页面  const page = await browser.newPage();  // 设置请求头,模拟正常的浏览器行为  await page.setExtraHTTPHeaders({    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',    'User-Agent':      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',  });  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码   await page.authenticate({ username: ‘yiniu’, password: ‘yiniu123’, agent: new HttpProxyAgent(‘http://http-dyn.abuyun.com:9020), });  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发   await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });  // 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组   const newsList = await page.$$(.news_title h3 a’);  // 创建一个空数组,用于存储新闻数据   const newsData = [];  // 遍历新闻列表,获取每个新闻的标题、链接、时间和来源   for (let news of newsList) {      // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果      const title = await page.evaluate((el) => el.innerText, news);         // 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果         const link = await page.evaluate((el) => el.href, news);     // 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果     const timeAndSource = await page.evaluate(     (el) => el.parentElement.nextElementSibling.innerText,news);     // 将新闻数据添加到数组中     newsData.push({       title,       link,       timeAndSource,     });    } // 打印新闻数据  console.log(newsData); })();    

案例

运行上述代码,我们可以得到如下输出:

[  {    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'  },  {    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'  },  {    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'  },  {    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'  },  {    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'  }]

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

来源地址:https://blog.csdn.net/ip16yun/article/details/132585911

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用Puppeteer进行新闻网站数据抓取和聚合

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用Puppeteer进行新闻网站数据抓取和聚合

导语 Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用
2023-08-30

如何使用 PHP 函数进行数据聚合?

php 提供了函数来进行数据聚合,包括:sum() 计算总和count() 计算数量max() 和 min() 查找最大值和最小值array_column() 从数组中提取指定列array_reduce() 应用聚合函数实战案例中,展示了计
如何使用 PHP 函数进行数据聚合?
2024-05-03

如何使用SQL语句在MySQL中进行数据聚合和统计?

如何使用SQL语句在MySQL中进行数据聚合和统计?在进行数据分析和统计时,数据聚合和统计是非常重要的步骤。MySQL作为一个功能强大的关系型数据库管理系统,提供了丰富的聚合和统计函数,可以很方便地进行数据聚合和统计操作。本文将介绍使用SQ
如何使用SQL语句在MySQL中进行数据聚合和统计?
2023-12-17

PHP开发中如何使用Memcache进行数据缓存和读取?

随着Web开发技术的不断发展,数据缓存越来越成为开发人员们关注的问题。对于PHP开发人员来说,Memcache是一个非常好的缓存解决方案。Memcache是一种高效的内存缓存系统,能够极大地提高Web应用程序的性能,它可以把数据存储在内存中
PHP开发中如何使用Memcache进行数据缓存和读取?
2023-11-07

如何使用SQL语句在MySQL中进行数据连接和联合查询?

如何使用SQL语句在MySQL中进行数据连接和联合查询?数据连接和联合查询是 SQL 语言中常用的技巧,能够在多个表中获取和筛选所需的数据。在 MySQL 中,我们可以通过使用 JOIN 子句来实现数据连接,使用 UNION 和 UNION
如何使用SQL语句在MySQL中进行数据连接和联合查询?
2023-12-17

PHP开发中如何使用Memcache进行高效的数据缓存和更新?

Memcache是一种高速分布式内存对象缓存系统,能够将常用的数据存储在内存中,从而使得系统能够更高效地读取和写入数据。对于PHP开发者来说,使用Memcache进行数据缓存和更新是一种非常好的实践,本文将讲解如何在PHP开发中使用Memc
PHP开发中如何使用Memcache进行高效的数据缓存和更新?
2023-11-07

PHP开发中如何使用Memcache进行高效的数据缓存和读取?

PHP是一种流行的服务器端脚本语言,用于在Web开发中创建动态网页。随着Internet的发展,Web应用程序的数量也越来越大,因此需要解决如何更好地管理和缓存数据以确保应用程序的高效运行。一种解决方案是使用缓存技术。在这篇文章中,我们将介
PHP开发中如何使用Memcache进行高效的数据缓存和读取?
2023-11-07

编程热搜

目录