华为IT产品线 冯兴智
——华为SmartVision大数据解决方案
未来10年结构化数据的增速约为32%,而非结构化数据的增速则将达到63%,非结构化信息将占到未来10年新生数据的90%
越来越多企业已经认识到数据是企业最重要的资产,通过发掘数据的潜在价值进行开源节流能够带来巨大的经济效益,信息战与价格战相比无疑是更好的生存发展方式,通过大数据处理完成敏捷商道占领战略制高点,通过快速的市场反应能力完成“快鱼吃慢鱼”。
然而,面对着数10年企业经营保存下来的蕴含着巨大金矿的海量数据,企业客户也会有一些茫然和不适。这是因为:
● 传统数据处理方式适合处理结构化数据,容量有限且成本高昂
企业客户一般使用数据仓库、ODS和数据集市进行数据后处理。传统的数据处理方式是基于关系型数据库加小型机硬件的组合方式,即数据仓库,初始投资巨大并且后期维护扩容成本也非常高,容易被厂商绑定。在大数据时代更容易造成投资成本激增。
● 传统数据处理方式完成的数据处理量有限,数据质量难以保证
大数据时代企业要处理的数据总量是巨大的,大大超出以往的数据规模,一般数据量在百TB到PB级别规模;而传统的关系型数据库加小型机的高成本组合方式限制了数据处理的容量和种类,从而也限制了企业对海量异构数据的敏捷探索,使得大量有价值的数据从未被真正利用。更进一步,数据的一致性、准确性、复杂的数据转换、去重等工作也难以开展,数据质量面临巨大挑战。
● 企业多层次的数据处理时效性难以保证
在不同部门和不同场景,客户对于时效性有不同的要求,可以从毫秒级到数天不等。例如传统方式对于风险控制,一般采用事后监督的方式,不能满足企业实时经营决策的要求。在另一个场景中,传统ETL和存储过程的数据方式在大数据量情况下也日显疲态,有时候一次数据处理计算竟然需要10天左右的时间,对于周报等报表分析在技术上无法支撑。
● 传统较为单一的数据处理分析模式难以支撑企业混业经营的需求
大数据时代数据源空前丰富,包括业务系统、视频监控、终端设备、互联网搜索、社交网络、电信通话记录、出入境记录、医疗记录、电子商务等等,而网页、微博、视频等非结构化信息将占到未来10年新生数据的90%。
● 传统方式下数据被分散在企业内部,“碎片化”的数据保存方式造成数据难以高效利用
目前企业内部的数据类型也是非常丰富的,既包括交易的结构化数据,也包括日志、图片、音视频等非结构化数据。实际情况下,这些数据被保存在不同的数据系统中,呈现出一种“碎片化”的状态,没有做到统一存储、统一管理。在传统方式下出于成本的考量,企业往往只会在关系型数据库中保存最近几年的交易数据,大量的历史数据被保存在磁带机或光盘库中,客观上造成了这部分数据的数据恢复时间非常长,存储弹性扩展能力也比较差,很难基于历史数据进行客户行为分析、多年度对比分析等业务分析。
总之,现阶段企业客户在大数据处理上的主要矛盾就是日益增长的数据量、数据种类与传统数据保存和处理方式的矛盾。针对企业精细化运营的要求,华为借助互联网行业新技术革新了传统企业应用的数据基础架构,基于x86服务器提供了SmartVision大数据处理解决方案。
华为SmartVision:催生数据基础架构的革新
SmartVision解决方案适用于银行、保险、证券、电力、电信、交通、政府、环境、物流等领域,满足大数据管理需求。
● 实时高效流处理能力
SmartVision解决方案引入了流处理机制来应对海量数据实时处理的需求,可以在数据流动过程中进行分析和计算,支持多种流处理方式和窗口操作。根据事先定义的规则,只要有匹配的事件或者数据出现,即触发后续动作,整个分析过程是在线实时分析。作为核心部件的流处理引擎具备高性能的处理能力和高可靠性,提供了离散事件的窗口处理机制、关联分析机制和统计机制,可以周期性地输出结果,或者触发后续事件。另外,还可以进行实时KPI的计算,并生成报表;也可以进行实时细粒度的分析,如基于流处理高性能的分析特性提供业务级、用户级的指标分析,支撑企业的精细化运营。
实时流处理在CEP(复杂事件处理)技术上进行增强,可以应用到电信、金融、物流、电力、交通、气象等各个行业,可用于支持动态突发、异常及重大事件的检测与预警、大规模实时监控、故障定位与诊断、重大灾害预警与趋势分析等。
● 企业级的统一海量数据存储分析平台
在传统企业数据仓库的基础上,SmartVision方案为海量数据(包括结构化和非结构化数据)提供了一个统一的存储处理平台,克服了数据处理容量和处理种类限制。通过对上百TB甚至PB级别数据的统一存储和处理,盘活了散落在企业内部的数据资产,有力地支持了企业的业务决策。
社区开源版本存在稳定性差、可靠性无法保证、大规模集群运维能力差等问题,难以直接商用,华为SmartVision产品针对社区开源版本做了非常多的企业级特性增强和优化功能,解决了开源版本自身的各种单点问题,具备高可用性,并提供可视化的集群管理部件。
● 并行计算能力以弹性服务提供
SmartVision方案对于海量数据处理平台,不仅可使用x86物理服务器,还可以针对业务多变的客户,提供基于虚拟机的弹性服务方案,从而做到了资源按需分配、动态调度、共享使用,并且在性能和扩展性上处于业界领先水平。对于周期性批量计算(如生物医药行业客户)、错峰运行(与桌面云昼夜分时复用)等场景非常适合。
● 软硬件优势互补形成完美大数据解决方案
大数据解决方案是一个系统性工程,华为在存储、计算、网络等硬件方面拥有完整的多层次的产品线。通过使用x86服务器替换小型机,既降低了客户的硬件投资,并且系统的线性扩展能力也非常好。由于分布式架构在数据处理过程中涉及到大量的数据传输和运算,CPU、磁盘和网络都很容易成为性能瓶颈,而且软件冗余的机制也对磁盘消耗很大,SmartVision方案提供了一系列专有板卡,如软件硬件化的数据压缩卡、智能网卡和SSD卡,节省了大量的服务器存储空间,优化了网络数据传输对服务器CPU的影响,保证了整个平台的高速平稳运行。
● 本地化、快速响应的专业化团队和服务
华为在电信领域积累了20多年丰富的运维经验,并且有一支快速响应的专业化团队,在大数据领域也有多年的投入和积累,在开源社区的贡献率处于全球领先地位,因此,无论是在国内甚至全球,华为都是屈指可数的能够面向企业应用场景提供大数据产品的厂商之一,并在业界竞争中占有一定优势。