我的编程空间,编程开发者的网络收藏夹
学习永远不晚

R语言中文本文件分割 符号 sep的用法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

R语言中文本文件分割 符号 sep的用法

一般情况下:

csv 文件 sep = “,” # 以逗号分割

txt 文件 sep = “\t” #以制表符分割

其他文件 sep = " " #以空格分割

具体情况,具体调整

sep= 文件中的字段分离符,用于文件数据文本的读取和保存过程中指定分割符号。

补充:用R语言把超大文本文件拆分成几个小文本文件

近一段时间一直在研究一些医院的数据。

前两天遇到一个尴尬:想打开一个仅有3G左右的文本文件(有时候必须要打开,直接传到数据库满足不了需求),破电脑(4G内存的电脑)就是打不开(用的Notepad++)。

就是这造型:

上网搜了一些方法,下了一些比较不常用的文本处理工具和其它工具,也不理想。

得知好多人在许多场景都需要打开或者拆分8G甚至10G以上的文本文件,于是想着自己研究一下。

下面就是我用R来拆分大文本的过程

虽然方法比较笨,但是简单轻巧、思路清晰。

1.首先把你想要拆分的大文本文件放到R的当前工作目录下

我的文件名在这里叫details.txt。

2.用函数split_file()来拆分大文本文件

split_file()函数是自定义的一个函数,用来拆分超大文本文件。

它总共有两个参数filename和eachfile_lines_num,即split_file(filename,eachfile_lines_num)。

filename是指需要拆分的超大文本的名字,eachfile_lines_num是指拆分完的每一个文件中有多少行数据。

split_file()会返回一个数值,代表了总共拆分成的小文本的数量。

split_file()拆分出来的文件会放置在R当前的工作目录下。

使用如:

split_file("details.txt",1000000),它把名为details.txt的超大文本文件拆分为每个文件只有1000000行的一个个的小文本文件。

split_file()的细节:


file_split <- function(filename,eachfile_lines_num){                               #建立函数
	c <- file(filename,"r")                                                    #建立链接
	varnames <- paste("splitfile", 1:1000, sep = "_")                          #建立尽可能多但不要太多的动态变量名
	i <- 1                                                                     #初始值
	while(TRUE){
		assign(varnames[i],value = readLines(c,n = eachfile_lines_num))    #分别把从filename中读出来的数据存放在变量中 
		write.table(get(varnames[i]),paste(varnames[i],".txt",sep = ""))   #分别把存放在变量中的数据写出到文件中
		if (length(get(varnames[i])) < eachfile_lines_num) break           
		else i <- i + 1                                                    #判断循环停止条件
}
	return(i)                                                                  #返回文件数量
}

我执行完file_split("details.txt",500000)之后得到了30多个文件:

3.对拆分的文件进行处理

由于过程中用到了readLines(),因此拆出来的文件每一行是一个字符串,有引号。

这好像不符合要求,只需用Windows记事本或notepad++或其他文本处理应用处理一下就行。

在notepad++中执行“搜索 -> 替换”把双引号替换成\0就行了。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。如有错误或未考虑完全的地方,望不吝赐教。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

R语言中文本文件分割 符号 sep的用法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

易语言分割文本到数组的方法是什么

在易语言中,可以使用字符串分割函数 `函数名.Split()` 来将文本分割成数组。具体的方法是将待分割的文本作为参数传递给 `Split()` 函数,并指定分隔符,函数将返回一个数组,其中每个元素是根据指定分隔符分割后的子字符串。以下是示
2023-08-17

怎么使用C语言将数字和字符等数据写入并输出到文本文件中

这篇文章主要介绍“怎么使用C语言将数字和字符等数据写入并输出到文本文件中”,在日常操作中,相信很多人在怎么使用C语言将数字和字符等数据写入并输出到文本文件中问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使
2023-07-02

Go语言中实现将PDF文件转换为Word文档的实用方法

Go语言实现PDF转Word文档的实用方法前言PDF和Word是两种常用的文档格式,在不同的场景下有不同的用途。PDF格式的文档具有跨平台兼容性好、安全性高、易于存储和传输等优点,而Word格式的文档则具有可编辑性强、易于修改和格式化等
Go语言中实现将PDF文件转换为Word文档的实用方法
2024-01-31

Go语言中配置文件使用与日志配置的方法

本文小编为大家详细介绍“Go语言中配置文件使用与日志配置的方法”,内容详细,步骤清晰,细节处理妥当,希望这篇“Go语言中配置文件使用与日志配置的方法”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。项目结构调整说先对
2023-06-30

win7系统中文语言包下载及使用方法的示例分析

这篇文章给大家分享的是有关win7系统中文语言包下载及使用方法的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。具体教程:1.Win7中文语言包下载(Win7 64位):Chinese (Simplifie
2023-06-27

详解Go语言中获取文件路径的不同方法与应用场景

在Go语言中,获取文件路径的方法有多种,每种都有其特定的应用场景。本文详细介绍了使用os.Getwd()获取当前工作目录、使用filepath.Abs()转换相对路径、使用filepath.Join()连接路径片段、使用io/ioutil.TempDir()创建临时目录、使用filepath.Dir()提取目录路径和使用filepath.Base()提取文件名等方法及其应用场景,旨在帮助开发者根据实际需要选择合适的方法进行文件路径操作。
详解Go语言中获取文件路径的不同方法与应用场景
2024-04-02

Go语言如何规定当解析器在 XML 文档中找到符号声明时被调用的函数

Go语言的XML解析器处理符号声明时调用预先注册的函数。这些处理函数负责验证元素、解析属性并创建数据结构。标准库提供了预定义的处理函数,也可以注册自定义函数以处理特定元素。解析器顺序执行这些函数,并在遇到错误时停止解析。
Go语言如何规定当解析器在 XML 文档中找到符号声明时被调用的函数
2024-04-02

C语言如何规定当解析器在 XML 文档中找到符号声明时被调用的函数

C语言规定了当解析器在XML文档中找到符号声明时,将调用xmlSAXDeclHandler函数,其原型为:voidxmlSAXDeclHandler(voiduserData,constxmlCharversion,constxmlCharencoding,constxmlCharstandalone)该函数用于处理符号声明,包括存储版本、编码和独立性信息,执行验证和调整后续解析行为。应用程序可以通过xmlSAXSetDeclHandler注册解析器函数,从而实现可扩展性、可复用性和效率。
C语言如何规定当解析器在 XML 文档中找到符号声明时被调用的函数
2024-04-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录