我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据库中怎么使用batch-import工具向neo4j中导入海量数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据库中怎么使用batch-import工具向neo4j中导入海量数据

这篇文章给大家分享的是有关数据库中怎么使用batch-import工具向neo4j中导入海量数据的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

1、batch-import原始项目地址:https://github.com/jexp/batch-import

这个工具是neo4j的作者之一Michael  Hunger所编写,是在neo4j自带批量导入工具基础之上做的进一步优化,但是它在导入.gz压缩文件时,会出现关系无法导入的情况,所以如果要使用.gz压缩包进行导入,请使用我修改过的版本:https://github.com/mo9527/batch-import

2、环境准备

jdk:7以上

内存:8G以上,导入数据多的话会非常消耗内存,我自己导入的是将近1.5亿节点,3亿关系,用的是32G内存

3、导入步骤

a)从github上clone下代码,并使用maven进行打包,打完包后的jar文件,与项目本身的依赖jar一起放到lib文件夹下,batch.properties文件和执行导入的脚本放在lib同级目录下,***的目录结构如下图:

数据库中怎么使用batch-import工具向neo4j中导入海量数据

ps:file文件夹是我自己将要导入的csv文件和.gz压缩包。

b)组装csv文件

说起这一步,可能需要你们根据自己的实际业务需求,手动写代码导csv文件了,这里我只讲一下csv文件格式一些要点:

1)、节点csv文件

节点csv文件的***列是固定的,列值为此节点的label名称,第二列是index,它的列头是id:string:indexName  这种格式,解释一下,id是这一列的property名字,可以根据需要自己命名,string为字段的数据类型,indexName是neo4j数据库中将要导入的索引名称,我自己的文件格式如下:

数据库中怎么使用batch-import工具向neo4j中导入海量数据

然后,后面的列就是节点的property了,没什么特别的要求

2)、关系csv文件

先看下我的关系csv文件:

数据库中怎么使用batch-import工具向neo4j中导入海量数据

关系的csv文件前两列要特别注意,***列是关系的起始节点,第二列是关系的结束节点,第三列是关系类型,后面的列是关系的property,可以随意了。他github上的说明没有说出一些注意点,这里要特别标明:

***列的起始节点的列头,也就是id:string:buyerId这个东西,这个玩意一定要和节点csv文件(上图)中定义的一模一样,第二列也是如此,要和结束节点的csv文件里的一样,不然他会找不到对应的关系。

3)、修改batch.properties文件

主要修改两个地方,

  • 如果是在现有的neo4j数据库中进行导入,请设置:

batch_import.keep_db=true

  • 将节点csv文件中所有的索引名称加入到文件中,例如上面这个节点csv文件中的索引名称是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact

以下是我本人的配置文件:

数据库中怎么使用batch-import工具向neo4j中导入海量数据

4、导入

linux和win环境的导入都差不多,只不过执行的脚本不一样,这里以win环境为例。

文件都准备好了,现在开始导入了。

打开cmd,cd到导入脚本的目录,也就是import.bat所在目录,执行命令:

import.bat test.db node.csv rel.csv

解释一下命令的几个参数:***个参数是数据库的目录,可以绝对路径指定到任意位置,第二个参数是节点csv文件,多个csv文件用逗号分隔,如果是压缩包,一定要注意,这里有个坑,不能把所有类型的node都放到一个压缩包中,一定要每个类型的node分开压缩,不然它只会导入***个类型的node节点,同理,关系的压缩包也要分开压缩,然后导入时用逗号分隔.gz文件。

好了,如果你的csv文件没有问题,内存足够用的话,现在就开始等待吧。

如果想修改导入工具的Heap大小,可以修改脚本文件中的 set HEAP=4G

数据库中怎么使用batch-import工具向neo4j中导入海量数据

温馨提示:如果节点文件中有中文的话,导入会非常慢的,除非你内存有128G,我有一个节点文件,里面只有一列是中文,而且中文最长不超过4个汉字,2000多万记录导了2个小时,注意我是32G内存,其他4000多万的节点,没有汉字的,基本上不超过2分钟。

感谢各位的阅读!关于“数据库中怎么使用batch-import工具向neo4j中导入海量数据”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据库中怎么使用batch-import工具向neo4j中导入海量数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

使用java怎么向mysql数据库批量插入数据

今天就跟大家聊聊有关使用java怎么向mysql数据库批量插入数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Java可以用来干什么Java主要应用于:1. web开发;2. An
2023-06-14

IDEA中怎么使用数据库工具窗口管理数据库

在IDEA中,可以使用数据库工具窗口来管理数据库。以下是在IDEA中使用数据库工具窗口管理数据库的步骤:打开数据库工具窗口:在IDEA顶部菜单中选择View -> Tool Windows -> Database,或者使用快捷键Alt +
IDEA中怎么使用数据库工具窗口管理数据库
2024-04-03

使用.Net Core怎么将大量数据导入至Mysql数据库

这期内容当中小编将会给大家带来有关使用.Net Core怎么将大量数据导入至Mysql数据库,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。订单测试表CREATE TABLE `trade` ( `id`
2023-06-15

Android中怎么使用traceview导入数据

要在Android中使用traceview导入数据,可以按照以下步骤进行操作:1. 在你的应用程序代码中添加Trace标记。可以使用`Debug.startMethodTracing()`和`Debug.stopMethodTracing(
2023-09-14

怎么在python中使用impor方法导入导出数据

怎么在python中使用impor方法导入导出数据?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科
2023-06-14

greenplum中怎么使用gpfdist与外部表高效导入数据

本篇内容介绍了“greenplum中怎么使用gpfdist与外部表高效导入数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!greenplu
2023-06-03

怎么在python中使用faker库批量生成假数据

这篇文章将为大家详细讲解有关怎么在python中使用faker库批量生成假数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。faker使用方法基本使用faker使用起来非常简单,我们看一下就
2023-06-08

使用python怎么往Postgresql数据库中插入一个Null值

使用python怎么往Postgresql数据库中插入一个Null值?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。python是什么意思Python是一种跨平台
2023-06-07

编程热搜

目录