Flink入门教程(二)
  

marco 1895

{{ttag.title}}
什么叫做有状态?
某公司 Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。
什么是有状态,什么是无状态?
无状态我们可以简单认为:每次的执行都不依赖上一次或上N次的执行结果,每次的执行都是独立的。
有状态我们可以简单认为:执行需要依赖上一次或上N次的执行结果,某次的执行需要依赖前面事件的处理结果。


比如,我们现在要统计文章的阅读PV(page view),现在只要有一个点击了文章,在Kafka就会有一条消息。现在我要在流式处理平台上进行统计,那此时是有状态的还是无状态的?
假设我们要在Storm做,那我们可能将每次的处理结果放到一个“外部存储”中,然后基于这个“外部存储”进行计算(这里我们不用Storm Trident),那此时Storm是无状态的。
比如说:我存储将每次得到的数据存储到 Redis中,来一条数据,我就先查一下Redis目前的值是多少,跟Redis的值和现在的值做一次累加就完事了。
假设要在Flink做,Flink本身就提供了这种功能给我们使用,我们可以依赖Flink的“存储”,将每次的处理结果交由Flink管理,执行计算的逻辑。


可以简单的认为:Flink本身就给我们提供了”存储“的功能,而我们每次执行是可以依赖Flink的”存储”的,所以它是有状态的。


那Flink是把这些有状态的数据存储在哪的呢?
主要有三个地方:
  • 内存
  • 文件系统(HDFS)
  • 本地数据库





如果假设Flink挂了,可能内存的数据没了,磁盘可能存储了部分的数据,那再重启的时候(比如消息队列会重新拉取),就不怕会丢了或多了数据吗?
看到这里,你可能在会在别的地方看过Flink的另外一个比较出名的特性:精确一次性
(简单来说就是:Flink遇到意外事件挂了以后,有什么机制来尽可能保证处理数据不重复和不丢失的呢)

打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

marco 发表于 2020-12-25 20:32
  
感谢分享
gqce 发表于 2020-12-25 21:43
  
感谢分享
一个无趣的人 发表于 2020-12-25 22:53
  
多谢楼主的分享,学习了Flink的知识。
蟲爺 发表于 2020-12-26 01:11
  
感谢分享
发表新帖
热门标签
全部标签>
新版本体验
设备维护
有一说一
纪元平台
山东区技术晨报
每日一问
功能体验
虚拟机
安装部署配置
解决方案
排障笔记本
测试报告
标准化排查
授权
技术盲盒
2024年技术争霸赛
问题分析处理
GIF动图学习
原创分享
资源访问
齐鲁TV
云化安全能力
信服课堂视频
日志审计
每日一记
sangfor周刊
地址转换
「智能机器人」
场景专题
2025年技术争霸赛
专家问答
技术圆桌
升级
玩转零信任
升级&主动服务
VMware替换
畅聊IT
上网策略
运维工具
用户认证
信服故事
平台使用
排障那些事
西北区每日一问
高手请过招
高频问题集锦
全能先锋系列
产品连连看
安全攻防
华北区交付直播
每周精选
安全效果
专家说
产品知识周周练
技术笔记
SDP百科
北京区每日一练
故障笔记
社区新周刊
行业实践
流量管理
产品动态
技术顾问
答题自测
在线直播
MVP
VPN 对接
项目案例
存储
产品预警公告
技术争霸赛
追光者计划
2023技术争霸赛专题
技术晨报
关键解决方案
声音值千金
网络基础知识
功能咨询
卧龙计划
华北区拉练
【 社区to talk】
工具体验官
终端接入
迁移
秒懂零信任
POC测试案例
专家分享
S豆商城资讯
天逸直播
SANGFOR资讯
以战代练
文档捉虫
产品解析
产品体验官
热门活动

本版达人

feeling

本周分享达人

新手29676...

本周提问达人