当前位置: 首页解决方案运营商解决方案

Panabit网络大数据系统分析方案发布时间:2014-10-16 19:54

        随着互联网规模的日益发展,其产生的数据量也在空前绝后的成倍增加,众所周知,企业数据本身就蕴藏着价值,从各类数据中快速获得有价值的信息就是大数据,由此大数据分析孕育而生;但是将有用的数据与没有价值的数据进行区分确实是一个棘手的问题,尤其是在处理能力在万兆级的电信网络环境中,这个目标的实现更是难上加难,如何从众多数据中快速获得有用的信息一直是制约大数据发展的瓶颈所在。
        Panabit对于大数据流量的处理分析已有十年之久,其日志分析系统前端引入探针收集数据,后端统计分析数据日志,单板载可实时处理20Gbps的流量,满足低端到高端各种网络环境;可实现对所辖区域范围内的所有行为进行分析和管理。
        Panabit将互联网数据划分为11个大类,各个大类有进一步细分为多个子类,子类又可分为多个超子类,总计1000余种常见互联网协议,对于这些应用信息,Panabit在万兆环境中可轻松获取得到。
        
        Panabit大数据网络分析系统部署说明:
        
        由图所示:为了提高网络的可靠性,通过旁路的方式进行部署分析。
        首先,在骨干链路中引入“分光器”,“分光器”将数据进行复制,然后下发到下层的“分流器”,分流器对接收到的数据进行采集分析,然后将完整的会话数据传输给Panabit;
        其次,Panabit会对这些信息进一步处理,在这里,Panabit主要完成了两个角色的功能:审计和日志摘要的下发:
        1. 实现安全的审计功能:Panabit同IPS审计类设备配合完成内容的安全审计(同传统的分光器、分流器比较,优点在于可选择指定的“应用协议”的数据包镜像给安全审计设备)将数据进一步处理产生;
        2. 大数据信息的基石:Panabit进一步分析处理数据,抽取具有价值的数据,将其生成以syslog为格式的日志摘要信息,存储到Panalog日志系统里(Panalog硬盘容量的预估:以10G链路产生的日志数据摘要为例,一天预估为300G)。
        最终,在大数据分析的Hadoop集群系统中,Hadoop将根据Panabit产生的日志摘要信息和自身的“用户信息系统”相计算,产生最终有价值的“大数据”。
 
        大数据的处理的基石在于能够在万兆的大网络环境下处理数据游刃有余:
        

        Panabit大数据流量处理的核心技术:
        1. DPI
        传统的IP包流量识别和QoS控制技术,仅对IP包头中的“5Tuples”,即“五元组”信息进行分析,来确定当前流量的基本信息,传统IP路由器也正是通过这一系列信息来实现一定程度的流量识别和QoS保障的,但其仅仅分析IP包的四层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,随着网上应用类型的不断丰富,仅通过第四层端口信息已经不能真正判断流量中的应用类型,更不能应对基于开放端口、随机端口甚至采用加密方式进行传输的应用类型。要准确识别网络应用,需要借助复杂的第7层识别技术。现在大量的网络应用包括P2P、即时通讯、网络游戏等等,都具备了跳跃端口、随机端口、自定义端口,甚至伪装或者盗用一些常用服务的协议端口进行通信传输,所以通过对端口对它们进行识别显然是远远不够,传统的流量限速设备无能为力。所以,网络数据包必须在应用层面(Application Layer)上进行检查,即对传输协议如TCP协议的载荷(Payload)部分进行检查,以判断它们是否符合代表某种应用的特征签名。Dpi——Deep Packet Inspection,深度包检测技术,DPI将网络上的数据报文根据五元组分为若干个的应用流,并通过识别技术对应用流中的特定的数据报文进行探测,从而确定应用流对应的应用或者用户动作。
        
        Panabit的DPI引擎,将传统DPI技术中的基于“特征字”的识别技术、应用层网关识别技术、行为模式识别技术有机的整合起来,有效的灵活的识别网络上的各类应用,目前,产品支持1000多种协议和应用的自动识别,从而为用户提供全面的、有效的、灵活的大数据处理基石。
        2. DFI
        DFI——Dynamic Flow Inspection,动态流检测技术,DFI采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。例如,网上IP语音流量体现在流状态上的特征就非常明显:RTP流的包长相对固定,一般在130~220byte,连接速率较低,为20~84kbit/s,同时会话持续时间也相对较长;而基于P2P下载应用的流量模型的特点为平均包长都在450byte以上、下载时间长、连接速率高、首选传输层协议为TCP等。DFI技术正是基于这一系列流量的行为特征,建立流量特征模型,通过分析会话连接流的包长、连接速率、传输字节量、包与包之间的间隔等信息来与流量模型对比,从而实现鉴别应用类型。DFI技术通过行为特征鉴定一个基于会话的应用,比较适合用户检测加密应用协议。
        
        3. PSDL
        PSDL ——Protocol Signature Description Language,协议特征描述语言,使得维护协议特征库更加及时方便快捷,通过微编译器和引擎,确保协议数量的可扩展性和灵活性。

一. 网络审计的分类和特点
        目前,网络审计主要分为两类:基于行为的审计和基于内容的审计。行为审计,分析记录用户的上网行为,以此作为判断用户习惯、定位网络问题和提取关键安全数据;内容审计,还原记录用户上网的内容,常见的包括:邮件、网页和IM聊天内容等,经常配合在用户内容中使用关键字匹配等技术,对用户的上网内容进行监控。
行为审计和内容审计两者应用的趋势:
        1. 大数据环境下的部署:
行为审计的信息主要来自于数据重组后提取的日志摘要信息,这些日志的数据量已非常庞大,产生的数据存储和管理已接近大数据处理的极限,而内容的审计相较行为审计在还原内容上需要耗用更多的存储空间和系统资源,后台更是无法负担,所以,在大数据环境中主要以行为审计为主。
        2. 用户的认同度:
我想没有多少用户愿意将隐私完全的暴露出来给别人窥视,尊重用户的隐私是行为类审计最基本的原则,这也是为什么市场主要以行为审计产品为主,相反,实施内容审计由于内容上的完全透明化可能在无形当中给员工产生压力,做事瞻前顾后,降低生产效率。
        3. 技术上的可行性:
内容审计的方法依赖于客户的网络协议是明文,或者是可以逆向破解的协议。随着互联网的发展,明文协议正在迅速减少,取而代之的是大量的加密协议和私有协议,这些协议都是内容审计无能为力的。以QQ为例,早期QQ版本内容非加密,客户聊天记录都可以记录,而现在的QQ协议为全程加密,目前对于此类加密内容还原只能依靠“网关+客户端”的模式进行,没有其他办法解决加密的内容还原。因此,内容审计的道路,在企业端和ISP端,基本已经失去了光辉。
        4. 审计市场的需求:
网络审计主要应用在网络故障的诊断(网络卡顿等疑难问题)、运营商下用户行为的大数据分析(用户退网预警,个人宽带私售政企用户,聚类客户分析(家庭主妇、游戏玩家等))、执法部门IP落地(对NAT后的内网做IP落地,对URL/QQ/Weibo/taobao等信息进行IP定位和落地,配合网络安全等工作),而在这些领域行为审计在性能的处理上做的更为出色,内容将逐渐淡出市场。
 
 
二. Panabit行为审计
        Panabit大数据网络分析系统是专门针对网络上的行为分析而设计开发的一款管理工具,配以先进的管理控制引擎和灵活多样的管理控制策略,实时分析网络活动,匹配管控策略,并生成丰富的统计报表,能够满足企事业单位、政府机关、金融电信、学校教育行业等各种Internet互联网使用单位的网络行为审计需求。旨在帮助管理者全面了解网络的状况和使用情况,提高网络使用效率和工作效率,最大限度避免不当行为带来的潜在风险和损失。
        Panabit审计日志的主要内容有:
        1. 流量会话日志
        流量会话日志是用来统计分析每个IP下的具体信息(比如:上下行流量的流向问题、速率以及该IP下的等具体应用)。该日志在运营商里可帮助其进行流量流向的统计分析和具体应用的归属,判别本地资源是否被有效的利用提供依据,从而根据具体内容进行网络优化,降低本地出口成本。在企业里环境里,可以根据不同应用所占的比例分析计算工作效率的损失计算。
        
        
        2. NAT日志
        NAT是将内部一组私有IP地址转换为可供访问Internet的外部公有地址,解决了IPv4地址枯竭的问题,但这样导致了内网地址和外网地址的不一致,网络提供商经常被监管部门要求提供相关的日志信息,典型的场景是监管部门通过内容服务或应用服务查到相关的互联网IP地址,IM帐号,访问URL等信息,在通过这些信息来反查访问者内网IP地址,以便锁定嫌疑人。Panabit日志审计系统采用高性能的探针收集并处理数据给管理日志平台,使日志审计可以毫无压力的处理各种大小环境。
        
        3. URL日志
        URL的日志既是审计部门常用的审计手段,又是作为一个公司衡量办公效率的依据。Panabit日志审计具有准确完善的URL分类库,这些分类库是根据国内用户当前情况进行的合理采集和分类,符合我国用户的网络使用环境的需求,分类结果较为准确,基本覆盖了在国内用户中有一定访问量的URL地址。

        4. 帐号日志  (QQ/weibo/taobao/POP3)
        帐号日志的审计是网络安全审查和取证的一个必不可少的重要环节。尤其是在公安部门的审查活动中,帐号登录查询已是审计的常态之一,保证登录信息的完整性已是刻不容缓的任务,然而在大网络环境当中,在SMB市场中大放异彩的UTM审计设备已失去原有的价值,大环境需配备专业的日志审计系统,Panabit卓越的数据处理性能完美解决了这一问题,为审计取证有据可依。
         
        5. DNS日志
        对于运营商来说可能没有比维护DNS服务更为重要的事情了,因为在Internet当中的大小服务都是依靠DNS为基础运营的,可以毫不夸张的说DNS是Internet的中枢神经,所以,相对运营商来讲分析统计DNS是很有必要的事情,DNS的分布可以很好的反映当前网络运营的效果。
        
三. 产品部署
         Panabit大数据网络分析系统可以采用路由、网桥、旁路三种方式灵活部署,通过分析处理流入和流出的数据包,可有效的实现对网络数据的监控审计。
        1. 路由模式和网桥模式都属于串联式的部署模式,都是通过将审计系统直接串接在用户网络链路中实现的。网桥模式可以实现对内网数据监控、控制和管理功能,主要适用于不希望更改网络结构、路由配置、IP配置的用户使用;路由模式可以实现对所有数据的审计、控制和拦截功能,适用于对网络拓扑的更改不敏感的用户使用;
        
        2. 旁路部署模式,是采用与交换机的镜像端口相连,通过抓包的方式,实现对网络数据的审计。它的优点是可靠性高,安全性好,不增加网络延迟,设备故障时不影响整个网络运行。
        
四. 总结
        简而言之,从各种各样类型的数据中快速或得有价值信息的能力就是大数据技术。Panabit大数据网络分析系统以卓越的探针识别和处理能力为基础,为网络服务提供统计分析处理功能,大到电信运营商,小到SMB市场,为高速发展的网络市场注入新鲜的活力,以做新一代网络大数据行为分析系统为目标面向广大用户,为其提供服务,并赢得了用户的高度信任和肯定!