【技术干货 】 深信服行为感知系统核心技术大爆料
  

深信服安全产品研发 288281人觉得有帮助

{{ttag.title}}
               干货 | 某公司行为感知系统核心技术大爆料

摘要:100%自主研发TB级数据分析平台如何实现?某公司行为感知系统核心技术分享!

l  超过一万三千台设备在线运行;
l  平台内部组件零故障;
l  目前支持的用户业务数据中,最大能达到每日20亿条记录,数据容量达到48TB,总计1200亿条原始记录,超过2000亿条视图记录;
l  每间隔5分钟同步更新超过50个数据仓库,视图总计50亿条记录;
l  统计查询视图做到秒级返回。

      这就是某公司上网行为管理最新推出的行为感知系统拥有强大的数据计算和服务能力。该系统基于上网行为管理的海量上网日志,对用户行为特征进行深度建模分析,帮助企业发现用户行为风险,一经问世就获得大量用户的好评。

     那么这个被称为“上网行为管理又一颠覆式创新”的数据分析平台是如何实现高性能、高稳定性及可扩展能力的?它有哪些自主研发的核心技术?

整体架构




行为感知系统整体架构图

      某公司行为感知系统整体基于MapReduce计算框架,通过机器学习、图计算等多种先进算法,对上网行为进行多种建模分析,最后通过直观的应用商店和数据分析应用展现出来。今天我们就来解密其中几个核心技术:MapReduce框架、MVCC机制、mdi索引等。

可扩展的大数据集:MapReduce框架



      MapReduce是一个分布式并行计算的软件框架,它的核心能力是将一项大任务,分解成多个互不干扰的并行的小任务,利用多CPU和多机器的计算资源提升性能。

      区别于传统数据库顺序执行的计算方式,MapReduce框架的优势是可弹性扩展的计算能力。行为感知系统基于MapReduce,但做了许多独特的创新:
1、 MapReduce组件化,针对不同业务可快速替换组件,改进和优化更容易;
2、 MapReduce组件对象常驻内存,用完即毁,无需状态维护;
3、 采用C/C++实现,消除语言级别性能问题。

实现并发一致性:MVCC机制




      MVCC机制即多版本并发控制机制,要解决的核心问题是并发一致性问题。举例来说,如果有多个人要同时读、写数据库中同一条记录的时候,该如何保障数据的一致性?

      传统的解决思路是加一把锁,让不同的用户串行化执行,一个人操作完下一个人才能才开始操作,但是这种方法无疑形成了一个瓶颈,无法满足大量并行计算的要求。

      MVCC机制通过多版本数据镜像的方式,在保障数据一致性的前提下,满足海量并发访问的性能要求。行为感知系统不仅解决读写冲突问题,还具备如下特点:
1、数据修改/删除实现存储顺序化,避免随机更新,最大化利用磁盘IO性能;
2、数据按版本备份,并支持自动化恢复;
3、并行处理数据的批量更新。

毫秒级查询:mdi索引

       关系数据库的索引技术被吐槽多年。例如MYSQL的innodb引擎和myisam引擎的索引,实际上只能针对小数据量(百万级)起作用,如果数据上了千万级索引就基本是个负担。

      更有甚者,一个表的索引字段一旦多起来不仅空间消耗大,影响建表速度,而且查询的执行计划有时还选择了最差路径,实在令人难以接受。

      某公司独立研究并实现了一个多维索引引擎(mdi)。通过关键字全文索引、位图索引、行程索引几个维度的索引组合提升索引的构建和查询速度。在亿级别数据下的搜索性能也能达到毫秒级返回。

      正是基于对用户需求的深刻洞察,才会有某公司行为感知系统的颠覆式创新。同时,行为感知系统通过不断推出不同场景的数据分析应用,比如泄密追踪分析、全网上网势态、校园网贷分析等,为用户持续挖掘数据价值,帮助组织洞悉行为风险,简化运维管理。


某公司智安全专注做实用的安全,能够帮助组织更有效地检测并阻止安全威胁,降低IT业务创新过程中的各种风险,为您的网络、数据和组织提供全面保护,让每个组织的安全建设更有效、更简单。

打赏鼓励作者,期待更多好文!

打赏
16人已打赏

nrsheng 发表于 2017-5-4 09:41
  
学习一下!
新手389349 发表于 2017-5-4 11:07
  
我们想做二次开发,跪求接口文档,谢谢!
adds 发表于 2017-5-4 11:49
  
是单独运行的一套系统还是要与AC结合来用?
夏虫语冰 发表于 2017-5-4 14:28
  

学习一下!
哥丶珍藏版 发表于 2017-5-4 15:42
  
学习一下
陈默默 发表于 2017-5-4 18:34
  
很牛叉,有没有涉及到隐私一说呢
DOI 发表于 2017-5-5 08:01
  
霸气啊
飞猪 发表于 2017-5-5 10:42
  
玩的还是大数据
tj_zero 发表于 2017-5-5 12:05
  
了解一下
发表新帖
热门标签
全部标签>
每日一问
技术盲盒
安全效果
干货满满
西北区每日一问
技术笔记
新版本体验
功能体验
【 社区to talk】
技术咨询
标准化排查
2023技术争霸赛专题
产品连连看
GIF动图学习
信服课堂视频
每周精选
自助服务平台操作指引
秒懂零信任
技术晨报
技术圆桌
通用技术
答题自测
安装部署配置
每日一记
原创分享
玩转零信任
场景专题
升级&主动服务
社区新周刊
畅聊IT
专家问答
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
故障笔记
排障那些事
高手请过招
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力

本版版主

147
113
49

发帖

粉丝

关注

121
316
352

发帖

粉丝

关注

7
20
6

发帖

粉丝

关注

5
7
7

发帖

粉丝

关注

本版达人

新手89785...

本周建议达人

七嘴八舌bar

本周分享达人

新手76619...

本周提问达人