我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用Shell构建多进程的CommandlineFu爬虫

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用Shell构建多进程的CommandlineFu爬虫

小编给大家分享一下如何使用Shell构建多进程的CommandlineFu爬虫,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

CommandlineFu 是一个记录脚本片段的网站,每个片段都有对应的功能说明和对应的标签。我想要做的就是尝试用 shell 写一个多进程的爬虫把这些代码片段记录在一个 org 文件中。

参数定义

这个脚本需要能够通过 -n 参数指定并发的爬虫数(默认为 CPU 核的数量),还要能通过 -f 指定保存的 org 文件路径(默认输出到 stdout)。

#!/usr/bin/env bash proc_num=$(nproc)store_file=/dev/stdoutwhile getopts :n:f: OPT; do    case $OPT in        n|+n)            proc_num="$OPTARG"            ;;        f|+f)            store_file="$OPTARG"            ;;        *)            echo "usage: ${0##*/} [+-n proc_num] [+-f org_file} [--]"            exit 2    esacdoneshift $(( OPTIND - 1 ))OPTIND=1

解析命令浏览页面

我们需要一个进程从 CommandlineFu 的浏览列表中抽取各个脚本片段的 URL,这个进程将抽取出来的 URL 存放到一个队列中,再由各个爬虫进程从进程中读取 URL 并从中抽取出对应的代码片段、描述说明和标签信息写入 org 文件中。

这里就会遇到三个问题:

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区

  2. 进程之间通讯的队列如何实现

  3. 如何从页面中抽取出 URL、代码片段、描述说明、标签等信息

  4. 多进程对同一文件进行读写时的乱序问题

实现进程之间的通讯队列

这个问题比较好解决,我们可以通过一个命名管道来实现:

queue=$(mktemp --dry-run)mkfifo ${queue}exec 99<>${queue}trap "rm ${queue} 2>/dev/null" EXIT
从页面中抽取想要的信息

从页面中提取元素内容主要有两种方法:

  1. 鸿蒙官方战略合作共建——HarmonyOS技术社区

  2. 对于简单的 HTML 页面,我们可以通过 sedgrepawk 等工具通过正则表达式匹配的方式来从 HTML 中抽取信息。

  3. 通过 html-xml-utils 工具集中的 hxselect 来根据 CSS 选择器提取相关元素。

这里我们使用 html-xml-utils 工具来提取:

function extract_views_from_browse_page(){    if [[ $# -eq 0 ]];then        local html=$(cat -)    else        local html="$*"    fi    echo ${html} |hxclean |hxselect -c -s "\n" "li.list-group-item > div:nth-child(1) > div:nth-child(1) > a:nth-child(1)::attr(href)"|sed 's@^@https://www.commandlinefu.com/@'} function extract_nextpage_from_browse_page(){    if [[ $# -eq 0 ]];then        local html=$(cat -)    else        local html="$*"    fi    echo ${html} |hxclean |hxselect -s "\n" "li.list-group-item:nth-child(26) > a"|grep '>'|hxselect -c "::attr(href)"|sed 's@^@https://www.commandlinefu.com/@'}

这里需要注意的是:hxselect 对 HTML 解析时要求遵循严格的 XML 规范,因此在用 hxselect 解析之前需要先经过 hxclean 矫正。另外,为了防止 HTML 过大,超过参数列表长度,这里允许通过管道的形式将  HTML 内容传入。

循环读取下一页的浏览页面,不断抽取代码片段 URL 写入队列

这里要解决的是上面提到的第三个问题: 多进程对管道进行读写时如何保障不出现乱序? 为此,我们需要在写入文件时对文件加锁,然后在写完文件后对文件解锁,在 shell 中我们可以使用 flock 来对文件进行枷锁。 关于 flock 的使用方法和注意事项,请参见另一篇博文 Linux shell flock 文件锁的用法及注意事项。

由于需要在 flock 子进程中使用函数 extract_views_from_browse_page,因此需要先导出该函数:

export -f extract_views_from_browse_page

由于网络问题,使用 curl 获取内容可能失败,需要重复获取:

function fetch(){    local url="$1"    while ! curl -L ${url} 2>/dev/null;do        :    done}

collector 用来从种子 URL 中抓取待爬的 URL,写入管道文件中,写操作期间管道文件同时作为锁文件:

function collector(){    url="$*"    while [[ -n ${url} ]];do        echo "从$url中抽取"        html=$(fetch "${url}")        echo "${html}"|flock ${queue} -c "extract_views_from_browse_page >${queue}"        url=$(echo "${html}"|extract_nextpage_from_browse_page)    done    # 让后面解析代码片段的爬虫进程能够正常退出,而不至于被阻塞.    for ((i=0;i<${proc_num};i++))    do        echo >${queue}    done}

这里要注意的是, 在找不到下一页 URL 后,我们用一个 for 循环往队列里写入了 =proc_num= 个空行,这一步的目的是让后面解析代码片段的爬虫进程能够正常退出,而不至于被阻塞。

解析脚本片段页面

我们需要从脚本片段的页面中抽取标题、代码片段、描述说明以及标签信息,同时将这些内容按 org 模式的格式写入存储文件中。

  function view_page_handler()  {      local url="$1"      local html="$(fetch "${url}")"      # headline      local headline="$(echo ${html} |hxclean |hxselect -c -s "\n" ".col-md-8 > h2:nth-child(1)")"      # command      local command="$(echo ${html} |hxclean |hxselect -c -s "\n" ".col-md-8 > div:nth-child(2) > span:nth-child(2)"|pandoc -f html -t org)"      # description      local description="$(echo ${html} |hxclean |hxselect -c -s "\n" ".col-md-8 > div.description"|pandoc -f html -t org)"      # tags      local tags="$(echo ${html} |hxclean |hxselect -c -s ":" ".functions > a")"      if [[ -n "${tags}" ]];then          tags=":${tags}"      fi      # build org content      cat <<EOF |flock -x ${store_file} tee -a ${store_file}* ${headline}      ${tags} :PROPERTIES::URL:       ${url}:END: ${description}#+begin_class="lazy" data-src shell${command}#+end_class="lazy" data-src EOF  }

这里抽取信息的方法跟上面的类似,不过代码片段和描述说明中可能有一些 HTML 代码,因此通过 pandoc 将之转换为 org 格式的内容。

注意***输出 org 模式的格式并写入存储文件中的代码不要写成下面这样:

    flock -x ${store_file} cat <<EOF >${store_file}    * ${headline}\t\t ${tags}    ${description}    #+begin_class="lazy" data-src shell    ${command}    #+end_class="lazy" data-srcEOF

它的意思是使用 flock 对 cat 命令进行加锁,再把 flock 整个命令的结果通过重定向输出到存储文件中,而重定向输出的这个过程是没有加锁的。

spider 从管道文件中读取待抓取的 URL,然后实施真正的抓取动作。

function spider(){    while :    do        if ! url=$(flock ${queue} -c 'read -t 1 -u 99 url && echo $url')        then            sleep 1            continue        fi         if [[ -z "$url" ]];then            break        fi        view_page_handler ${url}    done}

这里要注意的是,为了防止发生死锁,从管道中读取 URL 时设置了超时,当出现超时就意味着生产进程赶不上消费进程的消费速度,因此消费进程休眠一秒后再次检查队列中的 URL。

组合起来

collector "https://www.commandlinefu.com/commands/browse" & for ((i=0;i<${proc_num};i++))do    spider &donewait

抓取其他网站

通过重新定义 extract_views_from_browse_pageextract_nextpage_from-browse_pageview_page_handler 这几个函数, 以及提供一个新的种子 URL,我们可以很容易将其改造成抓取其他网站的多进程爬虫。

例如通过下面这段代码,就可以用来爬取 xkcd 上的漫画:

function extract_views_from_browse_page(){    if [[ $# -eq 0 ]];then        local html=$(cat -)    else        local html="$*"    fi    max=$(echo "${html}"|hxclean |hxselect -c -s "\n" "#middleContainer"|grep "Permanent link to this comic" |awk -F "/" '{print $4}')    seq 1 ${max}|sed 's@^@https://xkcd.com/@'} function extract_nextpage_from_browse_page(){    echo ""} function view_page_handler(){    local url="$1"    local html="$(fetch "${url}/")"    local image="https:$(echo ${html} |hxclean |hxselect -c -s "\n" "#comic > img:nth-child(1)::attr(class="lazy" data-src)")"    echo ${image}    wget ${image}} collector "https://xkcd.com/" &

以上是“如何使用Shell构建多进程的CommandlineFu爬虫”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用Shell构建多进程的CommandlineFu爬虫

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用Shell构建多进程的CommandlineFu爬虫

小编给大家分享一下如何使用Shell构建多进程的CommandlineFu爬虫,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!CommandlineFu 是一个记录
2023-06-16

如何分析Python多线程在爬虫中的应用

本篇文章为大家展示了如何分析Python多线程在爬虫中的应用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。作为测试工程师经常需要解决测试数据来源的问题,解决思路无非是三种:1、直接从生产环境拷贝真实
2023-06-04

详解如何利用Nodejs构建多进程应用

这篇文章主要为大家介绍了如何利用Nodejs构建多进程应用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2022-11-13

如何在python中使用proxybroker构建一个爬虫免费IP代理池

今天就跟大家聊聊有关如何在python中使用proxybroker构建一个爬虫免费IP代理池,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。python可以做什么Python是一种编程
2023-06-06

如何使用Webpack构建多页面程序

这篇文章给大家分享的是有关如何使用Webpack构建多页面程序的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。原理将每个页面所在的文件夹都看作是一个单独的单页面程序目录,配置多个entry以及html-webpac
2023-06-14

如何使用Python中的多线程和协程实现一个高性能的爬虫

如何使用Python中的多线程和协程实现一个高性能的爬虫导语:随着互联网的快速发展,爬虫技术在数据采集和分析中扮演着重要的角色。而Python作为一门强大的脚本语言,具备多线程和协程的功能,可以帮助我们实现高性能的爬虫。本文将介绍如何使用P
2023-10-22

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

本篇文章给大家分享的是有关如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。不知道大家过年都是怎么过的,反正栏主是在家睡了
2023-06-17

Linux下如何使用Shell脚本实现进程监控的流程

这篇“Linux下如何使用Shell脚本实现进程监控的流程”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Linux下如何使用
2023-07-05

如何使用C++构建云原生的Web应用程序?

使用 c++++ 构建云原生 web 应用程序涉及以下步骤:创建一个新项目,添加必要的库。编写业务逻辑并创建 http 路由。使用 dockerfile 创建容器镜像。将镜像构建并推送到注册表。在 kubernetes 上部署应用程序。如何
如何使用C++构建云原生的Web应用程序?
2024-05-12

如何使用 PHP 构建基于事件的应用程序

在 php 中构建基于事件的应用程序的方法包括:使用 eventsource api 创建事件源,并在客户端使用 eventsource 对象监听事件。使用服务器发送的事件 (sse) 发送事件,并在客户端使用 xmlhttprequest
如何使用 PHP 构建基于事件的应用程序
2024-05-04

如何使用shell获取进程名的内存以及CPU利用率

目录原理:在ubuntu18.04和centos7.9测试:使用方法:总结原理: 1)使用ps得到进程名的所有进程pid ps -C process_name -o pid=2) 使用 /proc
2022-06-05

如何在使用golang创建的wasm中实现多线程?

积累知识,胜过积蓄金银!毕竟在Golang开发的过程中,会遇到各种各样的问题,往往都是一些细节知识点还没有掌握好而导致的,因此基础知识点的积累是很重要的。下面本文《如何在使用golang创建的wasm中实现多线程?》,就带大家讲解一下知识点
如何在使用golang创建的wasm中实现多线程?
2024-04-05

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录