我的编程空间,编程开发者的网络收藏夹
学习永远不晚

go语言如何实现并发网络爬虫

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

go语言如何实现并发网络爬虫

本篇内容主要讲解“go语言如何实现并发网络爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“go语言如何实现并发网络爬虫”吧!

首先我的思路是看一下爬虫的串行实现,然后通过两个并发实现:一个使用锁,另一个使用通道

这里不涉及从页面中提取URL的逻辑(请查看Go框架colly的内容)。网络抓取只是作为一个例子来考察Go的并发性。

我们想从我们的起始页中提取所有的URL,将这些URL保存到一个列表中,然后对列表中的每个URL做同样的处理。页面的图很可能是循环的,所以我们需要记住哪些页面已经经历了这个过程(或者在使用并发时,处于这个过程的中间)。

go语言如何实现并发网络爬虫

串行爬虫首先检查我们是否已经在获取地图中获取了该页面。如果我们没有,那么它就在页面上找到的每个URL上调用自己。注意:map 在Go中是引用类型,所以每次调用都会得到相同的 map。

func Serial(url string, fetcher Fetcher, fetched map[string]bool) {    if fetched[url] {        return    }    fetched[url] = true    urls, err := fetcher.Fetch(url)    if err != nil {        return    }    for _, u := range urls {        Serial(u, fetcher, fetched)    }    return}func main() {    Serial(<page>, fetcher, make(map[string]bool))}

fetcher将包含提取URLs到列表中的逻辑(也可以对页面的内容做一些处理)。这个实现不是本讲的重点。

由于网络速度很慢,我们可以使用并发性来加快这个速度。为了实现这一点,我们需要使用锁(在读/写时锁定已经获取的页面地图)和 waitgroup(等待所有的goroutine完成)。

已经获取的页面的 map 只能由持有锁的线程访问,因为我们不希望多个线程开始处理同一个URL。如果在一个线程的读和写之间,另一个线程在第一个线程更新之前从 map 上得到了相同的读数,这就可能发生。

我们定义了fetchState结构,将 map 和锁组合在一起,并定义了一个方法来初始化它。

爬虫程序的开始是一样的,检查我们是否已经获取了URL,但这次使用sync.Mutex来锁定 map,如前所述。然后,对于页面上发现的每个URL,我们在一个新的goroutine中启动相同的函数。在启动之前,我们将WaitGroup的计数器增加1,done.Wait()在退出之前等待所有的抓取工作完成。

func ConcurrentMutex(url string, fetcher Fetcher, f *fetchState) {    f.mu.Lock()    already := f.fetched[url]    f.fetched[url] = true    f.mu.Unlock()    if already {        return    }    urls, err := fetcher.Fetch(url)    if err != nil {        return    }    var done sync.WaitGroup    for _, u := range urls {        done.Add(1)        go func(u string) {            defer done.Done()            ConcurrentMutex(u, fetcher, f)        }(u)    }    done.Wait()    return}type fetchState struct {    mu      sync.Mutex    fetched map[string]bool}func makeState() *fetchState {    f := &fetchState{}    f.fetched = make(map[string]bool)    return f}func main() {    ConcurrentMutex(<page>, fetcher, makeState())}

注意:

[1] done.Done()的调用被推迟了,以防我们在其中一个调用中出现错误,在这种情况下,我们仍然要递减WaitGroup的计数器。

[2] 这段代码的一个问题是,我们没有限制线程的数量。但值得一提的是,goroutines比其他语言的线程更轻量级,并且由Go运行时管理,系统调用更少。

[3] 我们把字符串u传给立即函数,以便制作一个URL的副本,然后才把它送到goroutine,因为变量u在外层for循环中发生了变化。要理解这样做的必要性,一个更简单的例子是,在没有WaitGroup的情况下。

func checkThisOut() {  s := "abc"  sec := time.Second  go func() {time.Sleep(sec); fmt.Printf("s = %v\n", s)}()  go func(u string) {time.Sleep(sec); fmt.Printf("u = %v\n", u)}(s)  s = "def"  time.Sleep(2 * sec)}// this prints out: u = abc, s = def

[4] 我们可以运行内置的数据竞赛检测器,通过运行go run -race .来帮助检测竞赛条件。它在这个例子中非常有效。

下一个并发版本在线程之间完全不共享内存!嗯,这并不准确。我们只是不会自己同步访问共享数据。相反,我们使用一个通道在goroutine之间进行通信。

在这个最后的版本中,我们有一个主函数在主线程上运行。只有这个函数能看到 map 并从通道中读取。channel ,像 map 一样,也是引用类型。所以这里只有一个通道。

在启动时,我们将第一个URL写到通道上。这是在一个goroutine中完成的,因为向一个没有缓冲的通道的写入会导致goroutine暂停,直到该值被另一个goroutine读取。

我们在一个for循环中从通道中读取URL的列表(从一个没有缓冲的通道中读取也会阻塞)。然后,我们以与之前的实现类似的方式浏览该列表。通过使用一个计数器,一旦没有更多的工作者,这个循环就会中断。

工作者获取URL的列表,将它们传递给通道。如果出现错误,会传递一个空列表,这样从通道读取的for循环最终会退出(计数器的设置方式是,我们等待从每个goroutine读取一个值)。

func ConcurrentChannel(url string, fetcher Fetcher) {    ch := make(chan []string)    go func() {        ch <- []string{url}    }()    master(ch, fetcher)}func master(ch chan []string, fetcher Fetcher) {    n := 1    fetched := make(map[string]bool)    for urls := range ch {        for _, u := range urls {            if fetched[u] == false {                fetched[u] = true                n += 1                go worker(u, ch, fetcher)            }        }        n -= 1        if n == 0 {            break        }    }}func worker(url string, ch chan []string, fetcher Fetcher) {    urls, err := fetcher.Fetch(url)    if err != nil {        ch <- []string{}    } else {        ch <- urls    }}

到此,相信大家对“go语言如何实现并发网络爬虫”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

go语言如何实现并发网络爬虫

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

go语言如何实现并发网络爬虫

本篇内容主要讲解“go语言如何实现并发网络爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“go语言如何实现并发网络爬虫”吧!首先我的思路是看一下爬虫的串行实现,然后通过两个并发实现:一个使用锁
2023-07-05

Go语言如何实现并发爬虫

这篇文章将为大家详细讲解有关Go语言如何实现并发爬虫,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1. 单线程爬虫 定义一个用户var Client http.Client主函数func main() {
2023-06-22

使用Go语言开发高并发的网络爬虫

使用Go语言开发高并发的网络爬虫随着互联网的迅速发展,信息量呈爆炸式增长。为了获取海量的数据,网络爬虫成为了一种重要的工具。而在开发网络爬虫时,高并发的处理能力往往是一个关键的需求。本文将介绍如何使用Go语言开发一款高并发的网络爬虫。Go语
使用Go语言开发高并发的网络爬虫
2023-11-20

Go语言并发爬虫的具体实现

目录写在前面1. 单线程爬虫2. 多线程爬虫2.1 channel main函数2.2 sync.WaitGroup3. 源码地址写在前面这篇文章主要让大家明白多线程爬虫,因为go语言实现并发是很容易的。这次的服务端,是我们之前搭建的电子商
2022-06-07

如何使用Go语言和Redis开发分布式爬虫

如何使用Go语言和Redis开发分布式爬虫引言:随着互联网技术的快速发展,网络爬虫在数据挖掘、搜索引擎优化、信息采集等领域的应用越来越广泛。其中,分布式爬虫能够充分利用集群资源,提高爬取效率和稳定性。本文将介绍如何使用Go语言和Redis开
2023-10-27

go语言如何并发

这篇文章主要介绍“go语言如何并发”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“go语言如何并发”文章能帮助大家解决问题。Go语言通过编译器运行时(runtime),从语言上支持了并发的特性;并发是
2023-07-05

如何实现Java手撸网络爬虫框架

这篇文章主要为大家展示了“如何实现Java手撸网络爬虫框架”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何实现Java手撸网络爬虫框架”这篇文章吧。首先介绍每个类的功能:DownloadPag
2023-06-20

如何在go语言项目中实现并发

这期内容当中小编将会给大家带来有关如何在go语言项目中实现并发,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1、启动go语言的协程package main import ( "fmt" "ru
2023-06-08

如何实现Python底层技术的网络爬虫

如何使用Python实现网络爬虫的底层技术网络爬虫是一种自动化的程序,用于在互联网上自动抓取和分析信息。Python作为一门功能强大且易于上手的编程语言,在网络爬虫开发中得到了广泛应用。本文将介绍如何使用Python的底层技术来实现一个简单
如何实现Python底层技术的网络爬虫
2023-11-08

如何处理Go语言中的并发网络请求问题?

如何处理Go语言中的并发网络请求问题?Go语言作为一门开发高并发应用的语言,其内置的并发机制使得处理网络请求变得非常方便。在实际开发中,我们常常会遇到需要同时发送多个网络请求的情况,这时候就需要借助Go语言的并发特性来处理。下面将通过具体的
2023-10-22

Go语言中如何处理网络编程中的并发问题?

Go语言中如何处理网络编程中的并发问题?在网络编程中,处理并发问题是非常重要的。Go语言作为一门支持并发的编程语言,提供了丰富的并发编程工具和简化并发编程的语法,为我们解决网络编程中的并发问题提供了良好的支持。首先,我们可以使用gorout
2023-10-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录