《Streaming Systems》读书笔记（二）

Z时代
2024-01-10
分类：技术分享

这个标题很亲切，让人想到了义务教育的英语老师，5个W法则（这里少了一个 Who️）……

在本章中主要是理解三个概念：Trigger，Watermark 和 Accumulation。这些概念的引入主要是和流处理的过程息息相关。首先以批处理为例：What 代表的是数据将得到什么样的结果，即 Transformation；Where 就是在 window上进行计算。现在有这样一个数据集：

现在要对这个数据集的窗口进行求和（本书的一大特点就是使用了大量的动画，不过这只能在电子版看到了）。一个典型的批处理将等待数据到达后整体计算：

注意这里的合计数字并不重要，只有当颜色变成深色才代表进行一次计算。

一个批流融合的引擎在进行批处理时可以对事件时间进行分割从而得到不同的窗口：

Streamings: When and How

当数据是无界的，就需要考虑何时对数据进行计算。这将引入触发器（Trigger）——所谓触发器就是针对外部信号（比如 Watermark）如何触发窗口物化（materialized）的机制。按照本书所说，触发器类似于照相机的『快门』，决定了何时对窗口触发快照。这里分为两种触发器：

可重复更新触发器（Repeated update triggers）。

完整性触发器（Completeness triggers）。

名字比较晦涩，其实就对应了流处理和批处理的一般模式。第一个代表窗口将随着数据或者时间不断更新，第二个代表数据只会在整批到达后进行计算。我们在 Flink 中使用的触发器提供了onEventTime，onElement等钩子函数。

对于 Repeated update triggers，也有不同的做法。比如按照处理时间延迟（processing-time delays），或者按照每条数据进行触发（per-record triggering），典型是这样的：

对应 Flink 代码：

input
.assignTimestampsAndWatermarks(newCustomTimeExtrator())
.keyBy(0)
.window(TumblingEventTimeWindows.of(Time.minutes(2)))
.sum(1)

在 Flink 中，每一种 Window 都有自己默认的 Trigger。这里TumblingEventTimeWindows默认是EventTimeTrigger，它将依据 Watermark 和窗口来判断每条记录是否触发计算。

它的缺点就是效率比较低（原文使用了chatty这个单词）。如果你只是想要一个不那么实时精确的结果，那么按照处理时间延迟是更好的选择。此外，定时触发还有一个好处，就是它可以平衡那些热点键（这里我没太看懂，应该指的是短期内某个窗口可能数据量额外的多，原文是it has an equalizing effect across high-volume keys or windows: the resulting stream ends up being more uniform cardinality-wise）。

按照处理时间延迟又可以分为两种：