我的编程空间,编程开发者的网络收藏夹
学习永远不晚

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

SequoiaDB 一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容 MySQL、PGSQL、SparkSQL等SQL访问方式。SequoiaDB 在分布式存储功能上,较一般的大数据产品提供更多的数据切分规则,包括:水平切分、范围切分、主子表切分和多维切分方式,用户可以根据不用的场景选择相应的切分方式,以提高系统的存储能力和操作性能。

为了能够提供简单便捷的数据迁移和导入功能,同时更方便地与传统数据库在数据层进行对接,巨杉数据库支持多种方式的数据导入,用户可以根据自身需求选择最适合的方式加载数据。

本文主要介绍巨杉数据库集中常见的高性能数据导入方法,其中包括巨杉工具矩阵中的 Sdbimprt导入工具,以及使用SparkSQL, MySQL和原生API 接口进行数据导入,一共四种方式。

 

Sdbimprt工具导入

sdbimprt 是 SequoiaDB 的数据导入工具,是巨杉数据库工具矩阵中重要组成之一,它可以将 JSON 格式或 CSV 格式的数据导入到 SequoiaDB 数据库中。

关于工具说明与参数介绍,请参考:

http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1479195620-edition_id-0。

一、示例

下面简单介绍一下如何使用 sdbimprt 工具将 csv 文件导入到 SequoiaDB 集合空间 site 的集合 user_info 中:

数据文件名称为“user.csv”,内容如下:​​​​​​

“Jack”,18,”China”“Mike”,20,”USA”

导入命令

sdbimprt --hosts=localhost:11810 --type=csv --file=user.csv -c site -l user_info --fields="name string default "Anonymous", age int, country"

--hosts:指定主机地址(hostname:svcname)

  • --type:导入数据格式,可以是csv或json

  • --file:要导入的数据文件名称

  • -c(--csname):集合空间的名字

  • -l(--clname):集合的名字

  • --fields:指定导入数据的字段名、类型、默认值

二、导入性能优化

下面说明使用 sdbimprt 工具时如何提升导入性能:

 使用 --hosts 指定多个节点

导入数据时,尽量指定多个 coord 节点的地址,用“,”分隔多个地址,sdbimprt 工具会把数据随机发到不同机器上的 coord,起到负载均衡的作用(如图1)。

 使用 --insertnum(-n) 参数

在导入数据时,使用 --insertnum(-n) 参数,可以实现批量导入,减少数据发送时的网络交互的次数,从而加快数据导入速度。取值范围为1~100000,默认值为100。

 使用 --jobs(-j) 参数

指定导入连接数(每个连接一个线程),从而实现多线程导入。

 切分文件

sdbimprt 在导入数据时支持多线程并发导入,但读数据时是单线程读取,随着导入线程数的增加,数据读取就成为了性能瓶颈。这种情况下,可以将一个大的数据文件切分成若干个小文件,然后每个小文件对应启动一个 sdbimprt 进程并发导入,从而提升导入性能。如果集群内有多个协调节点,分布在不同的机器上,那么可以在多台机器上分别启动 sdbimprt 进程,并且每个 sdbimprt 连接机器本地的协调节点,这样数据发送给协调节点时避免了网络传输(如图2)。

 数据加载完后再建索引

对于导入数据量大,且索引多的表,建议先把索引删除,待到数据导入完成后再重建索引,这样有利于加快数据导入。在数据导入的过程中,如果目标表存在大量的索引,数据库除了写入数据外,还需要写入索引文件,这会降低导入数据的性能。此方式对提升其它方式的数据导入速度同样适用。

 

SparkSQL 导入

SparkSQL 可以方便的读取多种数据源,通过 SequoiaDB 提供的 Spark 连接器,可以使用 SparkSQL 向 SequoiaDB 中写入数据或从中读取数据。

关于 SparkSQL 如何与 SequoiaDB 连接,请参考:

http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1432190712-edition_id-0。

一、示例

下面举例说明如何将 HDFS 中的 csv 文件通过 SparkSQL 导入 SequoiaDB 集合中,以及如何优化导入性能。

将 HDFS 中 csv 文件映射成 spark 的临时表

CREATE TABLE   hdfstable           USING  org.apache.spark.sql.execution.datasources.csv.CSVFileFormatOPTIONS (  path "hdfs://usr/local/data/test.csv",   header "true")

 将 SDB 的集合映射成 spark 的临时表​​​​​​​

create temporary table sdbtable (a string,b int,c date) using com.sequoiadb.spark OPTIONS ( host "sdbserver1:11810,sdbserver2:11810,sdbserver3:11810", username "sdbadmin",password "sdbadmin",collectionspace "sample", collection "employee",bulksize "500");

导入

sparkSession.sql("insert into sdbtable select * from hdfstable");

 

二、导入性能优化

SparkSQL 数据写入有以下两个参数可以优化:

  • host

尽量指定多个 coord 节点的地址,用“,”分隔多个地址,数据会随机发到不同 coord 节点上,起到负载均衡的作用。

  • bulksize

该参数默认值为500,代表连接器向 SequoiaDB 写入数据时,以 500 条记录组成一个网络包,再向 SequoiaDB 发送写入请求,可以根据数据的实际大小调整 bulksize 的值。

 

MySQL 导入

SequoiaDB 以存储引擎的方式与 MySQL 对接,使得用户可以通过 MySQL 的 SQL 接口访问 SequoiaDB 中的数据,并进行增、删、改、查等操作。

关于如何与MySQL对接,请参考:

http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1521595283-edition_id-302。

一、示例

使用 mysql 向 SequoiaDB 导入数据有以下几种方式:

 SQL 文件导入

mysql> source /opt/table1.sql

CSV 文件导入。mysql 中提供了 load data infile 语句来插入数据:

mysql> load data local infile "/opt/table2.csv" into table table2 fields terminated by "," enclosed by """ lines terminated by "
";

 

二、导入性能优化

提升MySQL的导入性能有如下建议:

 sequoiadb_conn_addr 指定多个地址

引擎配置参数“sequoiadb_conn_addr”尽量指定多个coord节点的地址,用“,”分隔多个地址,数据会随机发到不同coord节点上,起到负载均衡的作用。

 开启 bulkinsert

引擎配置参数“sequoiadb_use_bulk_insert”指定是否启用批量插入,默认值为“ON”,表示启用。配置参数“sequoiadb_bulk_insert_size”指定批量插入时每批的插入记录数,默认值2000。可以通过调整bulkinsert size提高插入性能。

 切分文件

可以将一个大的数据文件切分为若干个小文件,然后为每个小文件启动一个导入进程,多个文件并发导入,提高导入速度。

API 接口导入

SequoiaDB 提供了插入数据的 API 接口,即“insert”接口。insert 接口会根据传入的参数不同而使用不同的插入方式,如果每次只传入一条记录,则接口也是将记录逐条的发送到数据库引擎,如果每次传入一个包含多条记录的集合或数组,则接口会一次性把这批记录发送到数据库引擎,最后通过引擎一条一条写入数据库中。

因此,insert 接口的两种插入方式的区别在于发送数据到数据库引擎这一过程,一次传入多条记录这种方式称为“bulkinsert”,相对来说会减少数据发送时的网络交互的次数,插入性能更佳。

小结

如何达到最大数据加载速度,是数据库迁移/数据导入中常遇到的问题,本文从以下四个方面分别介绍了 SequoiaDB 数据迁移/导入过程中性能最优化的方法:

1)基于巨杉工具矩阵 sdbimprt 导入可以采用修改参数 host 指定多个节点、修改连接数、切分文件、修改参数 insertnum、重建索引等等对数据导入速度进行优化。

2)基于 MySQL 导入可以采用修改参数 host 地址及 bulksize 进行优化。

3)基于 Spark 导入可以采用指定多个协调节点IP、设置 bulkinsert 参数、切分文件进行优化。      

4)基于API接口进行优化可以采用 bulkinsert 批量插入数据,减少网络交互。

大家可以参考本文的数据导入方法进行实践验证,从传统数据库迁移到巨杉数据库SequoiaDB。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

SequoiaDB 一款自研金融级分布式数据库产品,支持标准SQL和分布式事务功能、支持复杂索引查询,兼容 MySQL、PGSQL、SparkSQL等SQL访问方式。SequoiaDB 在分布式存储功能上,较一般的大数据产品提供更多的数据切分规则,包括:水平切
【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践
2014-09-03

【巨杉数据库SequoiaDB】巨杉Tech |巨杉数据库的HTAP场景实践

01 背景   由于业务形式的发展,越来越多的需求需要对交易数据进行实时分析,例如推荐、决策、监控等,传统的处理办法是使用ETL的方式把OLTP业务产生的数据同步到OLAP的数据数据库,导致了数据需要在不同的数据库之间流转,耗费时间成本的同时需要耗费人力成本运
【巨杉数据库SequoiaDB】巨杉Tech |巨杉数据库的HTAP场景实践
2018-09-25

【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库的并发 malloc 实现

SequoiaDB Concurrent malloc Implementation   Introduction In a C/C++ application, the dynamic memory allocation function malloc(3
【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库的并发 malloc 实现
2016-01-31

【巨杉数据库SequoiaDB】巨杉 Tech | 几分钟实现巨杉数据库容器化部署

我们重新优化了 Docker部署的方式,帮助大家更快的上手SequoiaDB集群,本文就将介绍基于 Docker 的SequoiaDB分布式集群快速部署。   1.集群配置 我们将在六个容器中部署一个多节点,高度可用的 SequoiaDB 集群,如下所示:
【巨杉数据库SequoiaDB】巨杉 Tech | 几分钟实现巨杉数据库容器化部署
2016-11-23

【巨杉数据库SequoiaDB】巨杉 Tech | SequoiaDB SQL实例高可用负载均衡实践

1 前言   在应用程序中,应用配置连接的数据库IP地址和端口号都是固定一个的,当所属IP地址的服务器宕机后,需要人为手工更改IP地址切换数据库服务器。同时当应用接收到成千上万的并发 http 请求时,会导致服务器消耗大量系统资源,轻则响应速度降低,严重的甚至
【巨杉数据库SequoiaDB】巨杉 Tech | SequoiaDB SQL实例高可用负载均衡实践
2015-03-22

【巨杉数据库SequoiaDB】巨杉Tech | 分布式数据库千亿级超大表优化实践

引言 随着用户的增长、业务的发展,大型企业用户的业务系统的数据量越来越大,超大数据表的性能问题成为阻碍业务功能实现的一大障碍。其中,流水表作为最常见的一类超大表,是企业级用户经常碰到的性能瓶颈。 本文就以流水类的超大表,探讨基于SequoiaDB巨杉数据库存储
【巨杉数据库SequoiaDB】巨杉Tech | 分布式数据库千亿级超大表优化实践
2016-04-25

【巨杉数据库SequoiaDB】巨杉Tech | 四步走,快速诊断数据库集群状态

1.背景 SequoiaDB 巨杉数据库是一款金融级分布式数据库,包括了分布式 NewSQL、分布式文件系统与对象存储、与高性能 NoSQL 三种存储模式,分别对应分布式在线交易、非结构化数据和内容管理、以及海量数据管理和高性能访问场景。 集群一般会使用三副本
【巨杉数据库SequoiaDB】巨杉Tech | 四步走,快速诊断数据库集群状态
2020-08-03

巨杉Tech | SequoiaDB数据域及存储规划

1 背景 近年来,企业的各项业务发展迅猛,客户数目不断增加,后台服务系统压力也越来越大,系统的各项硬件资源也变得非常紧张。因此,在技术风险可控的基础上,希望引入大数据技术,利用大数据技术优化现有IT系统实现升级改造,搭建一个统一存储和管理历史、近线数据的服务平
巨杉Tech | SequoiaDB数据域及存储规划
2016-10-04

【巨杉数据库SequoiaDB】24 Hours , 数据库研发实录

08:10     小H,是巨杉数据库引擎研发的一名工程师。7:20 天还蒙蒙亮,小H就起床了,点亮了心爱的光剑,开始了新的一天。     在08:10时候,他已经洗漱完,锻炼好身体,倒好了咖啡。   整个春节由于疫情防控,他为国家做出了贡献,基本都宅在家
【巨杉数据库SequoiaDB】24 Hours , 数据库研发实录
2019-12-10

【巨杉数据库SequoiaDB】点燃深秋,巨杉数据库亮相DTC数据技术嘉年华大会

2019年11月15日,第九届数据技术嘉年华大会在北京隆重召开,本次大会以  “开源 • 智能 • 云数据 - 自主驱动发展 创新引领未来” 为主题,探索数据价值,共论智能未来。SequoiaDB 巨杉数据库作为领先的金融级分布式关系型数据库,为大家带来新一代
【巨杉数据库SequoiaDB】点燃深秋,巨杉数据库亮相DTC数据技术嘉年华大会
2019-05-17

【巨杉数据库SequoiaDB】巨杉数据库与浪潮商用机器完成技术兼容互认证

近期,巨杉数据库与浪潮商用完成技术兼容性测试,正式发布了相互认证证书。 双方产品在兼容性、稳定性、安全性上表现良好,运行流畅。此次兼容性测试和认证工作,帮助双方在技术生态拓展上迈出了坚实一步,能够共同为用户提供安全、可靠的数据基础平台和高性能硬件,为推进国产生
【巨杉数据库SequoiaDB】巨杉数据库与浪潮商用机器完成技术兼容互认证
2015-06-07

【巨杉数据库SequoiaDB】巨杉⼯具系列之一 | ⼤对象存储⼯具sdblobtool

近期,巨杉数据库正式推出了完整的SequoiaDB 工具包,作为辅助工具,更好地帮助大家使用和运维管理分布式数据库。为此,巨杉技术社区还将持续推出工具系列文章,帮助大家了解巨杉数据库丰富的工具矩阵。 本文作为系列第一篇,将分享巨杉数据库大数据存储工具 sdbl
【巨杉数据库SequoiaDB】巨杉⼯具系列之一 | ⼤对象存储⼯具sdblobtool
2020-04-12

编程热搜

目录