Flink入门教程(二)
  

marco 1438

{{ttag.title}}
什么叫做有状态?
某公司 Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。
什么是有状态,什么是无状态?
无状态我们可以简单认为:每次的执行都不依赖上一次或上N次的执行结果,每次的执行都是独立的。
有状态我们可以简单认为:执行需要依赖上一次或上N次的执行结果,某次的执行需要依赖前面事件的处理结果。


比如,我们现在要统计文章的阅读PV(page view),现在只要有一个点击了文章,在Kafka就会有一条消息。现在我要在流式处理平台上进行统计,那此时是有状态的还是无状态的?
假设我们要在Storm做,那我们可能将每次的处理结果放到一个“外部存储”中,然后基于这个“外部存储”进行计算(这里我们不用Storm Trident),那此时Storm是无状态的。
比如说:我存储将每次得到的数据存储到 Redis中,来一条数据,我就先查一下Redis目前的值是多少,跟Redis的值和现在的值做一次累加就完事了。
假设要在Flink做,Flink本身就提供了这种功能给我们使用,我们可以依赖Flink的“存储”,将每次的处理结果交由Flink管理,执行计算的逻辑。


可以简单的认为:Flink本身就给我们提供了”存储“的功能,而我们每次执行是可以依赖Flink的”存储”的,所以它是有状态的。


那Flink是把这些有状态的数据存储在哪的呢?
主要有三个地方:
  • 内存
  • 文件系统(HDFS)
  • 本地数据库





如果假设Flink挂了,可能内存的数据没了,磁盘可能存储了部分的数据,那再重启的时候(比如消息队列会重新拉取),就不怕会丢了或多了数据吗?
看到这里,你可能在会在别的地方看过Flink的另外一个比较出名的特性:精确一次性
(简单来说就是:Flink遇到意外事件挂了以后,有什么机制来尽可能保证处理数据不重复和不丢失的呢)

打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

marco 发表于 2020-12-25 20:32
  
感谢分享
gqce 发表于 2020-12-25 21:43
  
感谢分享
一个无趣的人 发表于 2020-12-25 22:53
  
多谢楼主的分享,学习了Flink的知识。
蟲爺 发表于 2020-12-26 01:11
  
感谢分享
发表新帖
热门标签
全部标签>
新版本体验
每日一问
产品连连看
安装部署配置
功能体验
高手请过招
安全效果
标准化排查
GIF动图学习
【 社区to talk】
解决方案
纪元平台
安全攻防
升级
用户认证
社区新周刊
秒懂零信任
信服课堂视频
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
原创分享
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
技术晨报
平台使用
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版达人

feeling

本周分享达人

新手29676...

本周提问达人