flink的DataStream应该学习哪些内容

这篇文章将为大家详细讲解有关flink的DataStream应该学习哪些内容，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

成都创新互联-专业网站定制、快速模板网站建设、高性价比张家界网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式张家界网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖张家界地区。费用合理售后完善，十多年实体公司更值得信赖。

flink作为目前比较火的流处理引擎，学好还是很有必要的，但是很多人喜欢问浪尖flink会不会超越spark，我觉得短期内还是不会，而且spark 批处理领域还是很高效靠谱的。但是作为大数据开发者，spark和flink并不是必须二选一的，而是都要掌握，所以也不用再问浪尖，关于是否直接跳过spark 直接学习flink这类问题了，没意义。

flink的处理模型可以分为基于事件驱动的处理和基于时间的处理模型，基于时间的处理模型又可以分为基于事件时间和处理时间(注入时间就是一种特殊的事件时间)。

1.runtime

必须要先非常了解flink的runtime机制，拓扑结构相关的如并行度设置，task划分原则，task链式原理，slot共享机制等。

关于flink的runtime可以参考浪尖前面的文章

结合Spark讲一下Flink的runtime

要理解这个其实可以参考Spark Streaming和Structured Steaming的运行模型和flink的区别。可以参考

Spark Streaming VS Flink
Structured Streaming VS Flink

这样便于我们了解flink内部运行原理，数据流动方式，shuffle机制，状态管理等，有助于数据倾斜调优，并行度设置，监控告警系统设计。最终才能做好一个比较稳定的应用程序。

2.事件处理

事件驱动处理模型，这个是实时处理的典型代表，就这点来说spark的流处理引擎确实比不上，因为其是基于处理时间的微批处理（当然，structured Streaming也支持基于事件时间的处理模型）。

对于flink的事件处理来说，除了前面所说的runtime，还要搞清楚flink datastream的事件时间机制，watermark生成器，并行度原理，shuffle划分，数据流动原理，状态管理及超时key状态删除等这几个非常重要的内容。这样便于理解数据在flink运行时内部流动过程，状态在flink自任务存储的过程，然后数据倾斜与否，状态过期删除及主要是数据倾斜及状态管理吧，这个是flink任务调优的。

当然，flink还是有很多比较骚的操作的，比如下面几篇文章：

flink的神奇分流器-sideoutput -可以实现数据分流处理。
Flink迭代操作末文-迭代流 -迭代计算处理。
flink一次对整个窗口进行聚合操作-ProcessWindowFunction -
也即是process这类底层的api，可以对状态及时间进行更精细的草走，甚至可以自己实现自己的会话窗口。
Flink异步IO第一讲 -异步IO 可以实现更加高效的维表join操作。

这些小技巧还是很有必要的掌握的。

3. 窗口函数

主要是这个分为基于事件时间的窗口函数和基于处理时间的窗口函数。窗口函数又分为会话窗口函数，滑动时间窗口，滚动时间窗口。更骚的操做是更底层的窗口处理函数及窗口处理机制也即是ProcessFunction和ProcessWindowFunction，便于我们获取更深层次的状态和时间。

剩下的还有就是窗口的join操作：