位置：首页-资讯-数据库

数据采集实战（四）-

2019-04-29 23:41

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒

数据采集实战（四）-

1. 概述

前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版，这一版每个章节都有大量的习题。

官方网站上虽然按照章节提供了习题的答案，一来因为网站是国外的，访问不流畅，二来答案中还夹杂着广告，影响查看。
所以，想试着将答案爬取下来制作成pdf，查看起来方便，也不会受网络的影响。

2. 采集流程

只是获取网页比较简单，没什么好说的，这里和前几篇数据采集实战不一样的地方在于：

网页中有数学公式，这些公式通过前端js的转换才能正常显示，所以从html中直接获取DOM内容是没用的，要获取所有html元素
获取网页之后要去除不必要的元素（比如网页中的header，footer，menu，广告等等），然后再保存网页，也就是采集网页局部内容

绿色背景的部分是通过puppetter来完成的。
蓝色背景的部分在采集之后通过PDF相关的命令行小工具来完成。

2.1 去除网页中元素（绿色背景部分）

    await page.evaluate(() => {
      const domToRemove = [
        "#top-bar-wrap",
        "#site-header",
        "#main> .page-header",
        "#content > article > ul",
        "#content > article > .entry-content > center",
        "#content > article > .entry-content > .google-auto-placed",
        "#content > article > .entry-content > #amzn_assoc_ad_div_adunit0_0",
        "#content > article > .entry-content > #related_posts",
        ".post-tags",
        "nav",
        "section",
        ".addthis-smartlayers",
        "#right-sidebar",
        "footer",
      ];
      for (let j = 0; j < domToRemove.length; j++) {
        const doms = document.querySelectorAll(domToRemove[j]);
        for (let k = 0; k < doms.length; k++) {
          // !!!这一步是关键，将自己从DOM树中删除
          doms[k].parentNode.removeChild(doms[k]);
        }
      }
    });

    // 网页保存成html文件，为了后面可以转换成pdf
    await savePage(
      page,
      "./output/linearAlgebraExercises",
      exercies[i] + ".html"
    );

2.2 生成PDF文档（蓝色背景部分）

将html文件转成pdf的工具很多，python和nodejs有很多这种库，选择一种你熟悉的都可以。
我用的 pandoc，转换效果还不错！数学公式都可以正确显示。

# 转换html的命令示例
pandoc input.html -t latex -o output.pdf

显示效果如下：

合并多个pdf也有很多小工具，我使用的是 pdftk。

# 合并pdf的命令示例
pdftk input1.pdf input2.pdf input3.pdf cat output output.pdf

3. 总结

整个流程很简单，唯一值得说的技术点可能就是在获取网页时，实时的去除了不必要的部分。

虽然很简单，但是整个流程是完备的，对它的细节进行一些完善之后，其实就是一个自动制作电子书的过程。

4. 注意事项

爬取数据只是为了研究学习使用，本文中的代码遵守：

如果网站有 robots.txt，遵循其中的约定
爬取速度模拟正常访问的速率，不增加服务器的负担
只获取完全公开的数据，有可能涉及隐私的数据绝对不碰

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据采集实战（四）-

阅读原文内容投诉

数据采集实战（四）-

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

数据采集实战（四）-

1. 概述前段时间在看一本很多人推荐的线性代数教材《线性代数应该这样学》第三版，这一版每个章节都有大量的习题。官方网站上虽然按照章节提供了习题的答案，一来因为网站是国外的，访问不流畅，二来答案中还夹杂着广告，影响查看。所以，想试着将答案爬取下来制作成pdf，查

2019-04-29

数据采集实战（一）-

概述最近在学习python的各种数据分析库，为了尝试各种库中各种分析算法的效果，陆陆续续爬取了一些真实的数据来。顺便也练习练习爬虫，踩了不少坑，后续将采集的经验逐步分享出来，希望能给后来者一些参考，也希望能够得到先驱者的指点！采集工具其实基本没用过什么现成的采

2017-02-11

数据采集实战（三）-

1. 概述王者荣耀是一直都挺喜欢的一个手游，玩了好几年，最近一段开始喜欢看比赛，所以想着采集点数据看看各个战队或者选手的情况。顺便也练习练习 puppeteer 的使用。数据来源于：尚牛电竞。2. 采集流程王者荣耀最近正在进行的最大比赛就是 2021世冠杯，

2020-07-29

数据采集实战（五）-

1. 概述现在学校越来越重视孩子课外知识的掌握，给孩子挑选课外书一般都是参考学校或者家长之间的推荐。有时，也会想看看在儿童阶段，目前到底流行的是些什么样的书。于是，就简单写了这个小爬虫，采集了畅销童书的前20名。要想采集更多的畅销童书，后者采集其他类型的畅销

2015-05-29

数据采集实战（二）-

1. 概述京粉（https://union.jd.com/）是京东联盟下的网站，通过分享其中的商品链接可以赚取佣金，类似淘客联盟。采集京粉的商品，既可以练习 puppeteer的使用，平时想在京东购物时，也能用得上（采集看看有类似商品的价格和评价）。2. 主要

2015-01-09

Python采集C站热榜数据实战示例

这篇文章主要为大家介绍了Python采集C站热榜数据实战示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

2023-05-19

Python实战使用XPath采集数据示例解析

这篇文章主要为大家介绍了Python实战之使用XPath采集数据实现示例解析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪<BR>

2023-05-16

数据采集 - Marvin

链接：https://bdcc.bigdataedu.org/block/48（需账号登录）

2016-08-03

sqlserver实时数据采集怎么实现

在 SQL Server 中实现实时数据采集可以通过以下几种方法来实现：使用 Change Data Capture (CDC)：SQL Server 提供了 CDC 功能，可以捕获数据库表中的更改，并将这些更改存储在 CDC 控制表中。通

2024-04-09

剖析数据的数据采集

如果大家还想了解更多方面的详细内容的话呢，不妨关注编程学习网教育平台，在这里你肯定会有意想不到的收获的!

2024-04-23

Python采集电影评论实战示例

这篇文章主要为大家介绍了Python采集电影评论实现示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

2023-05-16

爬虫技术：通过网页抓取、HTTP请求、DNS解析等技术手段来获取网站数据。用户行为数据：通过用户访问网站的行为记录来获取用户信息，包括访问时间、访问页面、跳出率、购买记录等。第三方API接口：通过第三方API接口，可以获取网站的用户信息、商品信息、评论信息等，也可以将这些数据进行处理和分析。社交媒体数据：通过社交媒体平台的用户数据，包括用户账号、兴趣爱好、行为轨迹等，来了解用户的兴趣、需求等。实时...

2023-10-27