我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Flink 流式聚合性能调优指南

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Flink 流式聚合性能调优指南

Flink 流式聚合性能调优指南

原文:Flink 流式聚合性能调优指南

SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外,Flink Table API 和 SQL 是高效优化过的,它集成了许多查询优化和算子优化。但并不是所有的优化都是默认开启的,因此对于某些工作负载,可以通过打开某些选项来提高性能。

这里将介绍一些实用的优化选项以及流式聚合的内部原理,它们在某些情况下能带来很大的提升。

注意:(1)目前,这里提到的优化选项仅支持 Blink planner。(2)目前,流聚合优化仅支持无界聚合,窗口聚合优化将在未来支持。

默认情况下,无界聚合算子是逐条处理输入的记录,即:(1)从状态中读取累加器,(2)累加/撤回记录至累加器,(3)将累加器写回状态,(4)下一条记录将再次从(1)开始处理。这种处理模式可能会增加 StateBackend 开销(尤其是对于 RocksDB StateBackend )。此外,生产中非常常见的数据倾斜会使这个问题恶化,并且容易导致 job 发生反压。

MiniBatch 聚合
MiniBatch 聚合的核心思想是将一组输入的数据缓存在聚合算子内部的缓冲区中。当输入的数据被触发处理时,每个 key 只需一个操作即可访问状态。这样可以大大减少状态开销并获得更好的吞吐量。但是,这可能会增加一些延迟,因为它会缓冲一些记录而不是立即处理它们。这是吞吐量和延迟之间的权衡。

下图说明了 mini-batch 聚合如何减少状态操作。

Flink 流式聚合性能调优指南
默认情况下 mini-batch 优化是被禁用的。开启这项优化,需要设置选项
table.exec.mini-batch.enabled、
table.exec.mini-batch.allow-latency 和
table.exec.mini-batch.size。

下面的例子显示如何启用这些选项。

// instantiate table environment
TableEnvironment tEnv = ...

// access flink configuration
Configuration configuration = tEnv.getConfig().getConfiguration();
// set low-level key-value options
configuration.setString("table.exec.mini-batch.enabled", "true"); // enable mini-batch optimization
configuration.setString("table.exec.mini-batch.allow-latency", "5 s"); // use 5 seconds to buffer input records
configuration.setString("table.exec.mini-batch.size", "5000"); // the maximum number of records can be buffered by each aggregate operator task
Local-Global 聚合
Local-Global 聚合是为解决数据倾斜问题提出的,通过将一组聚合分为两个阶段,首先在上游进行本地聚合,然后在下游进行全局聚合,类似于 MapReduce 中的 Combine + Reduce 模式。例如,就以下 SQL 而言:

SELECT color, sum(id)
FROM T
GROUP BY color
数据流中的记录可能会倾斜,因此某些聚合算子的实例必须比其他实例处理更多的记录,这会产生热点问题。本地聚合可以将一定数量具有相同 key 的输入数据累加到单个累加器中。全局聚合将仅接收 reduce 后的累加器,而不是大量的原始输入数据。这可以大大减少网络 shuffle 和状态访问的成本。每次本地聚合累积的输入数据量基于 mini-batch 间隔。这意味着 local-global 聚合依赖于启用了 mini-batch 优化。

下图显示了 local-global 聚合如何提高性能。

Flink 流式聚合性能调优指南
下面的例子显示如何启用 local-global 聚合。

// instantiate table environment
TableEnvironment tEnv = ...

// access flink configuration
Configuration configuration = tEnv.getConfig().getConfiguration();
// set low-level key-value options
configuration.setString("table.exec.mini-batch.enabled", "true"); // local-global aggregation depends on mini-batch is enabled
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");
configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE"); // enable two-phase, i.e. local-global aggregation
拆分 distinct 聚合
Local-Global 优化可有效消除常规聚合的数据倾斜,例如 SUM、COUNT、MAX、MIN、AVG。但是在处理 distinct 聚合时,其性能并不令人满意。

例如,如果我们要分析今天有多少唯一用户登录。我们可能有以下查询:

SELECT day, COUNT(DISTINCT user_id)
FROM T
GROUP BY day
如果 distinct key (即 user_id)的值分布稀疏,则 COUNT DISTINCT 不适合减少数据。即使启用了 local-global 优化也没有太大帮助。因为累加器仍然包含几乎所有原始记录,并且全局聚合将成为瓶颈(大多数繁重的累加器由一个任务处理,即同一天)。

这个优化的想法是将不同的聚合(例如 COUNT(DISTINCT col))分为两个级别。第一次聚合由 group key 和额外的 bucket key 进行 shuffle。bucket key 是使用 HASH_CODE(distinct_key) % BUCKET_NUM 计算的。BUCKET_NUM 默认为1024,可以通过
table.optimizer.distinct-agg.split.bucket-num 选项进行配置。第二次聚合是由原始 group key 进行 shuffle,并使用 SUM 聚合来自不同 buckets 的 COUNT DISTINCT 值。由于相同的 distinct key 将仅在同一 bucket 中计算,因此转换是等效的。bucket key 充当附加 group key 的角色,以分担 group key 中热点的负担。bucket key 使 job 具有可伸缩性来解决不同聚合中的数据倾斜/热点。

拆分 distinct 聚合后,以上查询将被自动改写为以下查询:

SELECT day, SUM(cnt)
FROM (
SELECT day, COUNT(DISTINCT user_id) as cnt
FROM T
GROUP BY day, MOD(HASH_CODE(user_id), 1024)
)
GROUP BY day
下图显示了拆分 distinct 聚合如何提高性能(假设颜色表示 days,字母表示 user_id)。

Flink 流式聚合性能调优指南
注意:上面是可以从这个优化中受益的最简单的示例。除此之外,Flink 还支持拆分更复杂的聚合查询,例如,多个具有不同 distinct key (例如 COUNT(DISTINCT a), SUM(DISTINCT b) )的 distinct 聚合,可以与其他非 distinct 聚合(例如 SUM、MAX、MIN、COUNT )一起使用。

注意 当前,拆分优化不支持包含用户定义的 AggregateFunction 聚合。

下面的例子显示了如何启用拆分 distinct 聚合优化。

// instantiate table environment
TableEnvironment tEnv = ...

tEnv.getConfig() // access high-level configuration
.getConfiguration() // set low-level key-value options
.setString("table.optimizer.distinct-agg.split.enabled", "true"); // enable distinct agg split
在 distinct 聚合上使用 FILTER 修饰符
在某些情况下,用户可能需要从不同维度计算 UV(独立访客)的数量,例如来自 Android 的 UV、iPhone 的 UV、Web 的 UV 和总 UV。很多人会选择 CASE WHEN,例如:

SELECT
day,
COUNT(DISTINCT user_id) AS total_uv,
COUNT(DISTINCT CASE WHEN flag IN ("android", "iphone") THEN user_id ELSE NULL END) AS app_uv,
COUNT(DISTINCT CASE WHEN flag IN ("wap", "other") THEN user_id ELSE NULL END) AS web_uv
FROM T
GROUP BY day
但是,在这种情况下,建议使用 FILTER 语法而不是 CASE WHEN。因为 FILTER 更符合 SQL 标准,并且能获得更多的性能提升。FILTER 是用于聚合函数的修饰符,用于限制聚合中使用的值。将上面的示例替换为 FILTER 修饰符,如下所示:

SELECT
day,
COUNT(DISTINCT user_id) AS total_uv,
COUNT(DISTINCT user_id) FILTER (WHERE flag IN ("android", "iphone")) AS app_uv,
COUNT(DISTINCT user_id) FILTER (WHERE flag IN ("wap", "other")) AS web_uv
FROM T
GROUP BY day
Flink SQL 优化器可以识别相同的 distinct key 上的不同过滤器参数。例如,在上面的示例中,三个 COUNT DISTINCT 都在 user_id 一列上。Flink 可以只使用一个共享状态实例,而不是三个状态实例,以减少状态访问和状态大小。在某些工作负载下,可以获得显著的性能提升。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Flink 流式聚合性能调优指南

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Flink 流式聚合性能调优指南

原文:Flink 流式聚合性能调优指南SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外,Flink Table API 和 SQL 是高效优化过的,它集成了许多查询优化
Flink 流式聚合性能调优指南
2017-11-03

Golang性能调优指南

Golang 是一种由 Google 开发的开源编程语言,以其简洁、高效的特点受到许多开发者的青睐。然而,在开发过程中,为了保证程序的性能和效率,我们有时需要对代码进行调优。本文将介绍一些 Golang 性能调优的技巧,并提供具体的代码示例
Golang性能调优指南
2024-03-06

分布式Golang API的性能调优指南

优化分布式 golang api 性能的指南:使用协程:协程可以并行执行任务,提高吞吐量和降低延迟。使用 channel:channel 用于协程通信,同步任务和避免锁竞争。缓存响应:缓存可以减少对后端服务的调用,提高性能。案例:通过使用协
分布式Golang API的性能调优指南
2024-05-08

SQL Server聚合函数性能调优实践

SQL Server的聚合函数在处理大量数据时可能会影响查询性能,因此需要进行性能调优。以下是一些SQL Server聚合函数性能调优的实践方法:使用索引:为聚合函数的列创建索引可以提高查询性能。在执行聚合函数时,SQL Server将使用
SQL Server聚合函数性能调优实践
2024-08-03

Go语言应用性能调优指南

Go 语言应用性能调优指南在生产环境中优化 Go 应用程序的性能对于确保其平稳运行和用户满意度至关重要。本文将提供一份全面的指南,涵盖性能调优的最佳实践、工具和实战案例。最佳实践使用 Go 内置的性能分析工具: pprof 和 trac
Go语言应用性能调优指南
2024-05-07

PHP底层系统性能调优指南

PHP底层系统性能调优指南概述:随着Web应用程序的发展,PHP已经成为最受欢迎的服务器端脚本语言之一。然而,PHP在处理大型、高流量的应用程序时可能会面临性能瓶颈。本文将为你提供一些调优技巧和具体的代码示例,帮助你优化PHP底层系统性能。
PHP底层系统性能调优指南
2023-11-08

PHP 微服务容器化性能调优指南

为优化容器化 php 微服务性能,执行以下步骤:镜像优化:使用多阶段构建、移交 php 可执行文件和启用 opcache。资源分配:调整内存和 cpu 限制,以防止资源不足。网络优化:启用 host 网络和 http/2,以提高通信效率。应
PHP 微服务容器化性能调优指南
2024-05-08

C++技术中的调试:性能瓶颈优化指南

调试 c++++ 性能瓶颈的指南:识别瓶颈:使用分析器、基准测试和日志记录来识别内存泄漏和性能问题。优化内存管理:减少分配、释放未使用的内存,并选择合适的容器。优化代码:遵循健壮原则、避免不必要的副本,并优化算法以提高性能。优化算法:使用更
C++技术中的调试:性能瓶颈优化指南
2024-05-08

数据库性能调优终极指南:让你的数据库达到最佳性能

数据库性能调优是一项系统性的工作,涉及到数据库的各个方面,包括硬件、软件、网络、操作、设计等。本文将从多个方面探讨如何优化数据库性能,让数据库达到最佳性能。
数据库性能调优终极指南:让你的数据库达到最佳性能
2024-02-13

最佳实践:CentOS搭建web服务器的性能调优指南

以下是一些CentOS搭建Web服务器的性能调优指南的最佳实践:1. 使用最新的稳定版本:确保你使用的是最新的CentOS版本,并安装最新的更新和安全补丁。2. 增加硬件资源:如果可能的话,增加服务器的硬件资源,例如CPU、内存和存储空间。
2023-10-09

提高网站性能的前端优化模式使用指南

如何利用前端优化模式提升网站性能?随着互联网的快速发展,网站已经成为人们获取信息、进行交流和娱乐的重要渠道。然而,随着网站内容和功能的不断增加,许多网站开始面临性能问题,比如页面加载缓慢、响应时间延长等。为了提高用户的体验和满意度,网站的
提高网站性能的前端优化模式使用指南
2024-02-03

服务器调优技巧:提升服务器性能的终极指南

服务器调优是一门复杂的工作,需要考虑各种因素,如硬件配置、操作系统、应用软件等。本文将介绍服务器调优技巧,帮助您提升服务器性能。
服务器调优技巧:提升服务器性能的终极指南
2024-02-07

服务器调优指南:优化性能,提升效率,让服务器更强大

本指南将提供有价值的服务器调优技巧,帮助您提高服务器性能,增强效率。
服务器调优指南:优化性能,提升效率,让服务器更强大
2024-02-07

Python Lambda表达式性能优化指南:让代码跑得更快

:Python Lambda表达式是一种简短且高效的方式来创建匿名函数,它在许多情况下都能带来性能优势。本文将介绍几种优化Python Lambda表达式性能的技巧,帮助您编写更快的代码。
Python Lambda表达式性能优化指南:让代码跑得更快
2024-02-23

编程热搜

目录