企业实践 | 如何更好地使用 Apache Flink 解决数据计算问题?
业务数据的指数级扩张,数据处理的速度可不能跟不上业务发展的步伐。基于 Flink 的数据平台构建、运用 Flink 解决业务场景中的具体问题等随着 Flink 被更广泛的应用于广告、金融风控、实时 BI、实时数仓、实时推荐等多种业务场景,在生产实践中已有丰富的案例与优秀的经验。
Flink Forward Asia 倒计时 28 天,企业实践专题大会邀请了字节跳动、滴滴出行、快手、Bilibili、网易、爱奇艺、中国农业银行、奇虎360、贝壳找房、奇安信等不同行业一线技术专家分享 Apache Flink 与大数据基础平台建设进展和实践,详细解读大数据相关技术在各行业的应用与落地,包括应用场景、业务痛点、面临挑战、如何破局等宝贵实践经验。
点击下方链接可提前了解更多有趣议程:
https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f2795503PjxQ
部分精彩议题
《Apache Flink 在字节跳动的实践与优化》
- Speaker:张光辉@字节跳动
主要介绍字节跳动最近在 Flink 上做的相关实践与优化工作,主要分 6 个部分来介绍,分别是:
1.Flink SQL 的应用和扩展;
2.Flink 负载均衡调度,分两个阶段,分别在 Yarn 分配 Container 阶段,在 Flink 内部 TaskScheduler 阶段;
3.Flink on docker on Yarn 解决基础环境隔离问题;
4.Flink CEP 多 Pattern 匹配和动态加载,为安全和风控团队提供支持;
5.提升 Checkpoint/Savepoint 易用性;
6.Flink BugFix & 优化:Flink Netty 网路连接单向断开导致 hang 住;异步申请启动 Container,加快提交速度;Flink JVM 参数配置优化;Flink Client 端和 TM端类加载机制不同等。
·
《Apache Flink 在中国农业银行的探索和实践》
- Speaker:侯鑫磊@中国农业银行
Apache Flink 作为新一代批流计算引擎,在金融科技应用越来越广泛,本次分享主要介绍农业银行以 Apache Flink 作为混合计算引擎,在反欺诈、系统异常检测、实时数据统计等应用中进行的探索和实践。内容包括:
Flink 在农业银行的使用场景
2.实践介绍,Flink 的作用和性能
3.Flink 应用效果
4.未来展望
·
《B 站基于 Flink 的平台化探索与实践》
- Speaker:郑志升@Bilibili
B 站早期的实时计算需求,多数是各业务线根据个性化定制的作坊形式,而随着需求量加大以及作坊式效率的低下,2017 年底 Saber 大数据实时计算平台诞生,建设近两年主要解决了基于 Flink 和 Spark 的实时 SQL IDE 及少量应用层 DAG IDE,应用于监控、实时 BI 分析及实时报表等场景。
而在 2018 年中切入了机器学习的实时工程领域,并提供给 AI、搜索及广告等各个 BU,用于实时模型训练的多流会话窗口 Join、维表数据 Join 的场景,以及大窗口下实时特征工程的探索与支持。更多内容详见本次分享。目录大纲四部分:
背景与现状
2.实时计算平台的演进
3.结合 AI 的工程探索与实践
4.挑战与未来
·
《基于 Flink 构建 CEP 引擎的挑战和实践》
- Speaker:韩鹏@奇安信
在大数据领域,根据业务需求和特点来做技术决策已经成为技术选型和开发的基本原则,本演讲主要介绍奇安信集团如何根据大数据安全分析的业务特点基于 Flink 来设计和实现一个独立的 CEP(ComplexEvent Process)引擎,这个引擎和 Flink-CEP 的不同点,以及在研发过程中遇到和解决的技术问题。
企业实践专题完整议程
11月28日下午,企业实践专题分享
11月29日上午,企业实践专题分享
深度培训,做技术实力派
大会组委会还为使用 Flink、希望深度学习的开发者们精心准备了培训课程。届时,来自阿里巴巴和 Ververica 的 Flink 专家们将带领开发者开展为期一天半的深度学习。
- Apache Flink PMC 带队,超豪华阵容,阿里巴巴及 Flink 创始团队资深技术专家担任培训讲师,为开发者培训课程制定全面学习体系。
- 课程能够满足不同学习需求,无论是入门还是进阶,开发者可根据自身基础选择课程内容,实现技术与应用能力上的积累与提升。
课程主要大纲如下:
中阶一:Apache Flink 开发人员培训
本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。培训将重点介绍分布式数据流、事件时间和状态等核心概念。练习将使您有机会了解以上概念在 API 中是如何被体现的,并了解如何将这些概念组合用以解决实际问题。
- 介绍流计算和 Apache Flink
- DataStream API 的基础
- 为 Flink 开发做准备(包括练习)
- 有状态的流处理(包括练习)
- 时间、定时器和 ProcessFunction(包括练习)
- 连接多个流(包括练习)
- 测试(包括练习)
说明:不需要 Apache Flink 的相关知识。
中阶二:Apache Flink 运维培训
本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
- 介绍流计算和 Apache Flink
- 数据中心里的 Flink
- 分布式架构介绍
- 容器化部署(包括实际操作)
- 状态后端和容错(包括实际操作)
- 升级和状态迁移(包括实际操作)
- 指标(包括实践)
- 容量规划
说明:不需要对 Apache Flink 有先验知识。
中阶三:SQL 开发人员培训
Apache Flink 支持 SQL 作为流处理和批处理的统一 API。SQL 可以用于各种各样的场景,并且相比使用 Flink 的底层 API,SQL 将更容易构建和维护。在本次培训中,您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。
- 介绍 SQL on Flink
- 使用 SQL 查询动态表
- 连接动态表
- 模式匹配与 match_recognition
- 生态系统&写外部表
说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。
高阶:Apache Flink 调优和问题排查
在过去的几年中,我们与许多 Flink 用户合作沟通期间了解到许多将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战。在此次培训中,我们将集中精力介绍这些挑战,并且帮助大家一起消除它。我们将提供一个有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。在实践课程的间隙中,参与者将有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。同时,我们也将归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。
- 时间和水印
- 状态处理和状态后端
- Flink 的容错机制
- 检查点和保存点
- DataStream API 和 ProcessFunction。
培训系列课程为精品小班教学,数量有限,预约满额将关闭入口,有相关培训需求的同学可尽早预约。详细说明:
- 参加培训请选择购买 VIP 套票。中阶培训购买 VIP 套票 1,高阶培训购买 VIP 套票 2。
- VIP 套票 1 可参与中阶所有课程,VIP 套票 2 可参与包括高阶、中阶培训在内的所有课程。
点击「大会详情」可了解更多培训课程与 Flink Forward Asia 2019 大会信息,限量席位,越早预约越能抓住时代先机~
原文链接
本文为云栖社区原创内容,未经允许不得转载。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341