我的编程空间,编程开发者的网络收藏夹
学习永远不晚

设计 | ClickHouse 分布式表实现数据同步

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

设计 | ClickHouse 分布式表实现数据同步

设计 | ClickHouse 分布式表实现数据同步

作者:吴帆 青云数据库团队成员

主要负责维护 MySQL 及 ClickHouse 产品开发,擅长故障分析,性能优化。

在多副本分布式 ClickHouse 集群中,通常需要使用 Distributed 表写入或读取数据,Distributed 表引擎自身不存储任何数据,它能够作为分布式表的一层透明代理,在集群内部自动开展数据的写入、分发、查询、路由等工作。

Distributed 表实现副本数据同步有两种方案:

  1. Distributed + MergeTree
  2. Distributed + ReplicateMergeTree

| Distributed + MergeTree

在使用这种方案时 internal_replication 需要设为 false,向 Distributed 表写入数据,Distributed 表会将数据写入集群内的每个副本。Distributed 节点需要负责所有分片和副本的数据写入工作。

file

1. 集群配置


    
        false
        
            shard1-repl1
            9000
        
        
            shard1-repl2
            9000
        
    

2. 数据写入

CREATE TABLE test.t_local  on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
) ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) ;

CREATE TABLE test.t_logical_Distributed on cluster logical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(logical_consistency_cluster, test, t_local, CounterID) ;

INSERT INTO test.t_logical_Distributed VALUES ("2019-01-16 00:00:00", 1, 1),("2019-02-10 00:00:00",2, 2),("2019-03-10 00:00:00",3, 3)

3. 数据查询

# shard1-repl1

SELECT *
FROM test.t_local

Query id: bd031554-b1e0-4fda-9ff8-1145ffae5b02

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: 636f7580-02e0-4279-bc9b-1f153c0473dc

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec. 

通过写入测试我们可以看到每个副本数据是一致的。

即使本地表不使用 ReplicatedMergeTree 表引擎,也能实现数据副本的功能。但每个副本的数据是通过 Distributed 表独立写入,文件存储格式不会完全一致,可以理解这种方式为逻辑一致性。

Distributed 需要同时负责分片和副本的数据写入工作,单点写入很有可能会成为系统性能的瓶颈,所有有接下来的第二种方案。

| Distributed + ReplicateMergeTree

在使用这种方案时 internal_replication 需要设为 true,向 Distributed 表写入数据。Distributed 表在每个分片中选择一个合适的副本并对其写入数据。

分片内多个副本之间的数据复制会由 ReplicatedMergeTree 自己处理,不再由 Distributed 负责。

file

1. 配置文件


    
        true
        
            shard1-repl1
            9000
        
        
            shard1-repl2
            9000
        
    

2. 数据写入

CREATE TABLE test.t_local on cluster  physical_consistency_cluster 
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = ReplicatedMergeTree("{namespace}/test/t_local", "{replica}")
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID);



CREATE TABLE test.t_physical_Distributed on cluster physical_consistency_cluster
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
)
ENGINE = Distributed(physical_consistency_cluster, test, t_local, CounterID);

INSERT INTO test.t_physical_Distributed VALUES ("2019-01-16 00:00:00", 1, 1),("2019-02-10 00:00:00",2, 2),("2019-03-10 00:00:00",3, 3)

3. 数据查询

# shard1-repl1

SELECT *
FROM test.t_local

Query id: d2bafd2d-d0a8-41b4-8d79-ece37e8159e5

┌───────────EventDate──┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.004 sec. 

------------------------------------------

# shard1-repl2

SELECT *
FROM test.t_local

Query id: b5f0dc80-f73f-427e-b04e-e5b787876462

┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-01-16 00:00:00 │         1 │      1 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-03-10 00:00:00 │         3 │      3 │
└─────────────────────┴───────────┴────────┘
┌───────────EventDate─┬─CounterID─┬─UserID─┐
│ 2019-02-10 00:00:00 │         2 │      2 │
└─────────────────────┴───────────┴────────┘

3 rows in set. Elapsed: 0.005 sec. 

ReplicatedMergeTree 需要依靠 ZooKeeper 的事件监听机制以实现各个副本之间的协同,副本协同的核心流程主要有:INSERT、MERGE、MUTATION 和 ALTER 四种。

通过写入测试我们可以看到每个副本数据也是一致的,副本之间依靠 ZooKeeper 同步元数据,保证文件存储格式完全一致,可以理解这种方式是物理一致。

ReplicatedMergeTree 也是在分布式集群中最常用的一种方案,但数据同步需要依赖 ZooKeeper,在一些 DDL 比较频繁的业务中 Zookeeper 往往会成为系统性能的瓶颈,甚至会导致服务不可用。

我们需要考虑为 ZooKeeper 减负,使用第一种方案 + 负载均衡轮询的方式可以降低单节点写入的压力。

总结

  • internal_replication = false

使用 Distributed + MergeTree 可实现逻辑一致分布式。

数据内容完全一致,数据存储格式不完全一致,数据同步不依赖 ZooKeeper,副本的数据可能会不一致,单点写入压力较大。

  • internal_replication = true

使用 Distributed + ReplicateMergeTree 可实现物理一致分布式。

数据内容完全一致,数据存储格式完全一致。数据同步需要依赖 ZooKeeper,ZooKeeper 会成为系统瓶颈。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

设计 | ClickHouse 分布式表实现数据同步

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

设计 | ClickHouse 分布式表实现数据同步

作者:吴帆 青云数据库团队成员主要负责维护 MySQL 及 ClickHouse 产品开发,擅长故障分析,性能优化。在多副本分布式 ClickHouse 集群中,通常需要使用 Distributed 表写入或读取数据,Distributed 表引擎自身不存储
设计 | ClickHouse 分布式表实现数据同步
2021-07-11

详解Flink同步Kafka数据到ClickHouse分布式表

目录引言什么是ClickHouse?创建复制表通过jdbc写入引言业务需要一种OLAP引擎,可以做到实时写入存储和查询计算功能,提供高效、稳健的实时数据服务,最终决定ClickHouse什么是ClickHouse?ClickHouse是
2022-12-01

Clickhouse 分布式表&本地表 &ClickHouse实现时序数据管理和挖掘

一、CK 分布式表和本地表(1)CK是一个纯列式存储的数据库,一个列就是硬盘上的一个或多个文件(多个分区有多个文件),关于列式存储这里就不展开了,总之列存对于分析来讲好处更大,因为每个列单独存储,所以每一列数据可以压缩,不仅节省了硬盘,还可以降低磁盘IO。(2
Clickhouse 分布式表&本地表 &ClickHouse实现时序数据管理和挖掘
2015-01-15

利用Redis实现分布式数据同步

利用Redis实现分布式数据同步随着互联网的快速发展和技术的日新月异,分布式系统已经成为当今大部分互联网应用的基础架构之一。在这样的系统中,数据的一致性是一个重要的问题,不同的节点需要实时同步数据以保证系统的稳定性和可靠性。而Redis作为
利用Redis实现分布式数据同步
2023-11-08

如何使用Redis实现分布式数据同步

如何使用Redis实现分布式数据同步随着互联网技术的发展和应用场景的日益复杂,分布式系统的概念越来越被广泛采用。在分布式系统中,数据同步是一个重要的问题。Redis作为一个高性能的内存数据库,不仅可以用来存储数据,还可以用来实现分布式数据同
如何使用Redis实现分布式数据同步
2023-11-07

python实现MySQL指定表增量同步数据到clickhouse的脚本

python实现MySQL指定表增量同步数据到clickhouse,脚本如下:#!/usr/bin/env python3 # _*_ coding:utf8 _*_from pymysqlreplication import BinLog
2022-05-14

分布式事务数据库中不同数据库表对象的类型设计准测

水平分片表    全局表 垂直分片表    1.   
分布式事务数据库中不同数据库表对象的类型设计准测
2021-01-01

基于Java方式实现数据同步

这篇文章主要为大家详细介绍了基于Java方式实现数据同步,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2022-11-13

实现和设计Golang的分布式系统

Golang分布式系统的设计与实现引言:随着互联网的迅速发展,人们对分布式系统的需求越来越高。分布式系统能够提供高可用性、伸缩性和容错性,使得系统能够应对大量请求和并发。而Golang作为一门现代化的编程语言,以其高效的并发能力和简单易用
实现和设计Golang的分布式系统
2024-01-16

如何设计一个优化的MySQL表结构来实现数据同步功能?

如何设计一个优化的MySQL表结构来实现数据同步功能?数据同步是在分布式系统中非常常见的需求,它可以确保多个节点之间的数据一致性。在MySQL中,我们可以通过合理设计表结构来实现数据同步功能。本文将介绍如何设计一个优化的MySQL表结构,并
如何设计一个优化的MySQL表结构来实现数据同步功能?
2023-10-31

Elasticsearch分布式搜索与NoSQL数据库的协同工作(Elasticsearch与NoSQL数据库如何协同实现分布式搜索?)

Elasticsearch(ES)和NoSQL数据库协同实现分布式搜索,为大规模数据处理提供高效搜索功能和可扩展性。ES索引NoSQL数据,通过反向索引技术快速搜索文档。NoSQL数据库存储原始数据,确保数据完整性和一致性。通过这种协作,ES提供可扩展性、快速搜索和查询灵活性。该解决方案广泛应用于电子商务搜索、日志分析、全文搜索和欺诈检测等用例中。
Elasticsearch分布式搜索与NoSQL数据库的协同工作(Elasticsearch与NoSQL数据库如何协同实现分布式搜索?)
2024-04-02

Elasticsearch分布式搜索中的数据同步与一致性保障(Elasticsearch如何确保分布式搜索数据的一致性和同步?)

Elasticsearch采用多项策略确保分布式搜索中的数据一致性和同步性:主分片和副本分片:写入请求由主分片处理,并复制到副本分片。写入协调:更改传播到副本分片之前,由主分片确认。刷新和提交:定期刷新确保数据在内存中可用,提交永久存储数据。同步复制:更改从主分片复制到副本分片,确保同步。确认机制:副本分片确认更改已接收,以确认写入成功。分块快照和文件系统快照:提供数据复制和恢复选项。
Elasticsearch分布式搜索中的数据同步与一致性保障(Elasticsearch如何确保分布式搜索数据的一致性和同步?)
2024-04-02

Cassandra数据的分布式聚合和计算怎么实现

Cassandra是一个分布式数据库系统,可以通过将数据分布在多个节点上来实现分布式聚合和计算。以下是实现分布式聚合和计算的一些常见方法:使用Cassandra的查询语言CQL进行聚合和计算:可以使用CQL语句来对分布在多个节点上的数据进行
Cassandra数据的分布式聚合和计算怎么实现
2024-05-11

编程热搜

目录