我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么在Golang中读取超大文件

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么在Golang中读取超大文件

怎么在Golang中读取超大文件?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

什么是golang

golang 是Google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言,其语法与 C语言相近,但并不包括如枚举、异常处理、继承、泛型、断言、虚函数等功能。

Golang超大文件读取的两个方案

流处理方式

分片处理

去年的面试中我被问到超大文件你怎么处理,这个问题确实当时没多想,回来之后仔细研究和讨论了下这个问题,对大文件读取做了一个分析

比如我们有一个log文件,运行了几年,有100G之大。按照我们之前的操作可能代码会这样写:

func ReadFile(filePath string) []byte{    content, err := ioutil.ReadFile(filePath)    if err != nil {        log.Println("Read error")    }    return content}

上面的代码读取几兆的文件可以,但是如果大于你本身及其内存,那就直接翻车了。因为上面的代码,是把文件所有的内容全部都读取到内存之后返回,几兆的文件,你内存够大可以处理,但是一旦上几百兆的文件,就没那么好处理了。

那么,正确的方法有两种

第一个是使用流处理方式代码如下

func ReadFile(filePath string, handle func(string)) error {    f, err := os.Open(filePath)    defer f.Close()    if err != nil {        return err    }    buf := bufio.NewReader(f)     for {        line, err := buf.ReadLine("\n")        line = strings.TrimSpace(line)        handle(line)        if err != nil {            if err == io.EOF{                return nil            }            return err        }        return nil    }}

第二个方案就是分片处理

当读取的是二进制文件,没有换行符的时候,使用下面的方案一样处理大文件

func ReadBigFile(fileName string, handle func([]byte)) error {    f, err := os.Open(fileName)    if err != nil {        fmt.Println("can't opened this file")        return err    }    defer f.Close()    s := make([]byte, 4096)    for {        switch nr, err := f.Read(s[:]); true {        case nr < 0:            fmt.Fprintf(os.Stderr, "cat: error reading: %s\n

补充:golang 读取大文件处理sync.pool + bufio.NewReader(f)

看代码吧~

文件大小

怎么在Golang中读取超大文件

package mainimport ("bufio""fmt""io"//"math""os""strings""sync""time")func main() {var (s time.Time //当前时间file *os.FilefileStat os.FileInfoerr errorlastLineSize int64)s = time.Now()if file, err = os.Open("/Users/zhangsan/Downloads/log.txt");err != nil{fmt.Println(err)}defer func() {err = file.Close() //close after checking err}()//queryStartTime, err := time.Parse("2006-01-02T15:04:05.0000Z", startTimeArg)//if err != nil {//fmt.Println("Could not able to parse the start time", startTimeArg)//return//}////queryFinishTime, err := time.Parse("2006-01-02T15:04:05.0000Z", finishTimeArg)//if err != nil {//fmt.Println("Could not able to parse the finish time", finishTimeArg)//return//}if fileStat, err = file.Stat();err != nil {return}fileSize := fileStat.Size()//72849354767offset := fileSize - 1//检测是不是都是空行 只有\nfor {var (b []byten intchar string)b = make([]byte, 1)//从指定位置读取if n, err = file.ReadAt(b, offset);err != nil {fmt.Println("Error reading file ", err)break}char = string(b[0])if char == "\n" {break}offset--//获取一行的大小lastLineSize += int64(n)}var (lastLine []bytelogSlice []stringlogSlice1 []string)//初始化一行大小的空间lastLine = make([]byte, lastLineSize)_, err = file.ReadAt(lastLine, offset)if err != nil {fmt.Println("Could not able to read last line with offset", offset, "and lastline size", lastLineSize)return}//根据条件进行区分logSlice = strings.Split(strings.Trim(string(lastLine),"\n"),"next_pay_date")logSlice1  = strings.Split(logSlice[1],"\"")if logSlice1[2] == "2021-06-15"{Process(file)}fmt.Println("\nTime taken - ", time.Since(s))fmt.Println(err)}func Process(f *os.File) error {//读取数据的key,减小gc压力linesPool := sync.Pool{New: func() interface{} {lines := make([]byte, 250*1024)return lines}}//读取回来的数据池stringPool := sync.Pool{New: func() interface{} {lines := ""return lines}}//一个文件对象本身是实现了io.Reader的 使用bufio.NewReader去初始化一个Reader对象,存在buffer中的,读取一次就会被清空r := bufio.NewReader(f) ////设置读取缓冲池大小 默认16r = bufio.NewReaderSize(r,250 *1024)var wg sync.WaitGroupfor {buf := linesPool.Get().([]byte)//读取Reader对象中的内容到[]byte类型的buf中n, err := r.Read(buf)buf = buf[:n]if n == 0 {if err != nil {fmt.Println(err)break}if err == io.EOF {break}return err}//补齐剩下没满足的剩余nextUntillNewline, err := r.ReadBytes('\n')//fmt.Println(string(nextUntillNewline))if err != io.EOF {buf = append(buf, nextUntillNewline...)}wg.Add(1)go func() {ProcessChunk(buf, &linesPool, &stringPool)wg.Done()}()}wg.Wait()return nil}func ProcessChunk(chunk []byte, linesPool *sync.Pool,stringPool *sync.Pool) {//做相应的处理}

执行

go run test2.go "2020-01-01T00:00:00.0000Z" "2020-02-02T00:00:00.0000Z" /Users/zhangsan/go/class="lazy" data-src/workspace/test/log.log
EOFTime taken -  20.023517675s<nil>

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注编程网行业资讯频道,感谢您对编程网的支持。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么在Golang中读取超大文件

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么在Golang中读取超大文件

怎么在Golang中读取超大文件?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。什么是golanggolang 是Google开发的一种静态强类型、编译型、并发型
2023-06-14

golang怎么读取大型日志文件

在Go中,可以使用bufio和os包来读取大型日志文件。以下是一个示例代码,可以逐行读取大型日志文件:package mainimport ("bufio""log""os")func main() {file, err := os.O
2023-10-20

怎么中python读取大文件

本篇文章为大家展示了怎么中python读取大文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞
2023-06-14

golang怎么读取大文件,并快速查找

读取大文件:利用 bufio.reader 进行逐行读取,优化内存消耗。快速查找:使用 bloom 过滤器实现 o(1) 时间复杂度的概率性查找,或将文件内容哈希为键以使用哈希表进行快速查找。如何使用 Go 读写大文件并快速查找读取大文件
golang怎么读取大文件,并快速查找
2024-04-21

Golang文件读取操作:快速读取大文件的技巧

Golang文件读取操作:快速读取大文件的技巧,需要具体代码示例在Golang程序设计中,文件读取是一个非常常见的操作。但当需要读取大文件时,通常是一件比较耗费时间和资源的操作。因此,如何快速读取大文件是一个非常值得探讨的话题。本文将介绍
Golang文件读取操作:快速读取大文件的技巧
2024-01-19

怎么在Python中利用流式读取大文件

怎么在Python中利用流式读取大文件?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎
2023-06-14

Golang怎么读取单行超长的文本

这篇文章主要介绍“Golang怎么读取单行超长的文本”,在日常操作中,相信很多人在Golang怎么读取单行超长的文本问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Golang怎么读取单行超长的文本”的疑惑有所
2023-06-22

python怎么读取大文件

这篇文章主要介绍“python怎么读取大文件”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python怎么读取大文件”文章能帮助大家解决问题。可以通过两种方法利用python读取大文件:第一种是利用
2023-06-30

怎么在PHP中读取文件

小编给大家分享一下怎么在PHP中读取文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1.fread语法:fread ( resource $handle ,
2023-06-14

PHP怎么读取大文件

小编给大家分享一下PHP怎么读取大文件,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!衡量成功唯一能确认我们对代码所做改进是否有效的方式是:衡量一个糟糕的情况,然后
2023-06-15

golang怎么读取文件内容

在Golang中,可以使用`io/ioutil`包中的`ReadFile`函数来读取文件内容。以下是一个简单的示例:package mainimport ("fmt""io/ioutil")func main() {// 读取文件内容c
2023-10-26

Java中怎么读取文件夹大小

今天就跟大家聊聊有关Java中怎么读取文件夹大小,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。(一)单线程递归方式package com.taobao.test; import ja
2023-06-17

怎么在tensorflow中读取tfrecord文件

今天就跟大家聊聊有关怎么在tensorflow中读取tfrecord文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1、生成tfrecord文件import osimport nu
2023-06-14

怎么在python中读取全部文件

本篇文章为大家展示了怎么在python中读取全部文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4
2023-06-14

怎么在python中按行读取文件

这期内容当中小编将会给大家带来有关怎么在python中按行读取文件,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1、read 方法默认会把文件的 所有内容一次性读取到内存如果文件太大,对内存的占用会非常严
2023-06-15

python如何流式读取数G超大文件

这篇文章将为大家详细讲解有关python如何流式读取数G超大文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。如何流式读取数G超大文件使用 with...open... 可以从一个文件中读取数据,这是所有
2023-06-27

golang怎么通过viper读取config.yaml文件

这篇文章主要讲解了“golang怎么通过viper读取config.yaml文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“golang怎么通过viper读取config.yaml文件”吧
2023-06-29

golang怎么读取大型日志

在Go语言中,你可以使用`bufio`或者`os`包来读取大型日志文件。下面是一个示例代码,演示如何使用`bufio`包来逐行读取一个大型日志文件:```gopackage mainimport ("bufio""log""os")func
2023-09-27

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录