我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Doris实时数仓dim层构建

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Doris实时数仓dim层构建

FlinkCDC接入多表或整库

前言

flink cdc实时同步mysql维表
本文是基于flink 1.16


一、导入flink-doris-connector jar包

将 flink-doris-connector-1.16-1.4.0.jar 上传至 $FLINK_HOME/lib目录下
可至 maven官网 下载

二、cdc脚本

--database 同步到Doris的数据库名。--table-prefix Doris表前缀名,例如 --table-prefix ods_。--table-suffix 同上,Doris表的后缀名。--including-tables 需要同步的MySQL表,可以使用"|" 分隔多个表,并支持正则表达式。 比如--including-tables table1|tbl.*就是同步table1和所有以tbl开头的表。--excluding-tables 不需要同步的表,用法同上。--mysql-conf MySQL CDCSource 配置,例如--mysql-conf hostname=127.0.0.1 ,您可以在这里查看所有配置MySQL-CDC,其中hostname/username/password/database-name 是必需的。--sink-conf Doris Sink 的所有配置,可以在这里查看完整的配置项。--table-conf Doris表的配置项,即properties中包含的内容。 例如 --table-conf replication_num=1--ignore-default-value 关闭同步mysql表结构的默认值。适用于同步mysql数据到doris时,字段有默认值,但实际插入数据为null情况。--use-new-schema-change 新的schema change支持同步mysql多列变更、默认值。# 若要接入整库,则 including-tables 和 excluding-tables不填

三、脚本配置

vim cdc.sh# 写入如下内容export HADOOP_CLASSPATH=`hadoop classpath`# 我部署的是yarn session模式,以application形式启动程序,这可自行更改$FLINK_HOME/bin/flink run-application -t yarn-application \    -Djobmanager.memory.process.size=700m \    -Dtaskmanager.memory.process.size=1024m \#必须设置checkpoint    -Dexecution.checkpointing.interval=10s \    -Drest.bind-port=8082-8087 \    -Dparallelism.default=1 \    -Denv.java.opts="-Dfile.encoding=UTF-8" \ #程序入口及jar包位置    -c org.apache.doris.flink.tools.cdc.CdcTools \      $FLINK_HOME/lib/flink-doris-connector-1.16-1.4.0.jar \#以下是cdc配置    mysql-sync-database \    --database doris_test --mysql-conf hostname=127.0.0.1 --mysql-conf username=root --mysql-conf password=123456 --mysql-conf database-name=cc_test --including-tables "tbl1|test.*" --sink-conf fenodes=127.0.0.1:8030 --sink-conf username=root --sink-conf password=000000 --sink-conf jdbc-url=jdbc:mysql://127.0.0.1:9030 --sink-conf sink.label-prefix=test_1# 同步tbl1和所有以test开头的表

四、运行脚本

sh cdc.sh

来源地址:https://blog.csdn.net/weixin_44378305/article/details/132869934

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Doris实时数仓dim层构建

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

更强大的实时数仓构建能力!分析型数据库PostgreSQL 6.0新特性解读

阿里云 AnalyticDB for PostgreSQL 为采用MPP架构的分布式集群数据库,完备支持SQL 2003,部分兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。AnalyticDB PG通过
2023-06-03

5个互联网大厂实时数仓建设实例,例例皆经典

目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场
5个互联网大厂实时数仓建设实例,例例皆经典
2021-03-20

如何使用MongoDB与Kafka构建实时数据流

要使用MongoDB和Kafka构建实时数据流,您需要遵循以下步骤:安装和配置MongoDB和Kafka:首先,您需要安装和配置MongoDB和Kafka。您可以访问它们的官方网站以获取安装指南。创建生产者和消费者:在Kafka中,您需要创
如何使用MongoDB与Kafka构建实时数据流
2024-05-07

Redis:构建实时数据分析系统的关键技术

Redis:构建实时数据分析系统的关键技术,需要具体代码示例随着大数据时代的到来,实时数据分析成为了许多企业和组织中不可或缺的一项技术。实时数据分析可以帮助企业快速了解市场动态、用户行为和产品性能等关键数据,从而做出更加明智的决策。而构建一
Redis:构建实时数据分析系统的关键技术
2023-11-07

基于MongoDB的实时数据湖构建与分析经验总结

近年来,随着大数据技术的迅速发展,各种数据处理与分析的需求日益增长。在这个背景下,数据湖作为一种新型的数据存储和处理架构,逐渐受到了广泛关注。而MongoDB作为一种流行的非关系型数据库,具备高性能、扩展性强等优点,成为构建实时数据湖的理想
基于MongoDB的实时数据湖构建与分析经验总结
2023-11-03

异步协程开发实战:构建高性能的实时数据统计系统

异步协程开发实战:构建高性能的实时数据统计系统引言:在当今互联网时代,大数据已经成为非常重要的一部分。无论是电子商务、社交媒体还是智能物联网,都离不开数据的收集和分析。而实时数据统计系统则是实时获取和处理数据的关键。本文将介绍如何使用异步协
异步协程开发实战:构建高性能的实时数据统计系统
2023-12-09

给数字人生成加上界面,基于ER-NeRF/RAD-NeRF/AD-NeRF,Gradio框架构建WEBUI,使用HLS流媒体,实现边推理边播放——之一:在WEBUI中实时输出服务器控制台日志

前言 目前数字人实现技术众多,我这里采用基于ER-NeRF,在这里可以看到其介绍:ICCV 2023 | ER-NeRF: 用于合成高保真Talking Portrait的高效区域感知神经辐射场-https://zhuanlan.zhihu
给数字人生成加上界面,基于ER-NeRF/RAD-NeRF/AD-NeRF,Gradio框架构建WEBUI,使用HLS流媒体,实现边推理边播放——之一:在WEBUI中实时输出服务器控制台日志
2023-12-22

编程热搜

目录