基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。
一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。这一点也是和传统的数据挖掘技术有着本质的不同。
本文将介绍三家厂商的大数据技术:阿里大数据、oracle大数据、第三方大数据。
1 阿里大数据
1.1 特点与架构
阿里大数据(大规模计算)是阿里云环境下的模块之一,阿里云主要模块有:弹性计算、数据库、存储于CDN、网络、互联网中间件、大规模计算等。与传统大数据部署方式不同的是更加关注上层应用的建设,对于下层支持平台,只有服务器、交换机等,其他功能全部运用技术方式实现,这样就对于大数据建设来说,“轻资产,重应用”。

图1 阿里大数据平台“数加”
1.1 阿里大数据生产链条
产品覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产链条。

图2 数据生产全链条
1.1.1 数据采集
Datahub是“数加”上的一款数据采集产品,可为用户提供实时数据的发布和订阅功能。写入的数据可直接进行流式数据处理,也可参与后续的离线作业计算。Datahub同主流插件和客户端保持高度兼容。
1.1.2 计算引擎
大数据计算服务MaxCompute(原ODPS)、分析型数据库Analytic DB、流计算StreamCompute共同组成了底层强大的计算引擎。
分析型数据库可实现对数据的实时多维分析。
流计算擅长对实时流式数据进行分析,具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。
1.1.3 数据加工
计算引擎之上,“数加”提供了丰富的云端数据开发套件,开发者可一站式完成数据加工。这些产品包含:数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控。
大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。
1.1.4 数据分析:
在数据分析方面,数加提供了3款产品供开发者使用:
1、通过移动数据分析产品,开发者可快速搭建日志采集、分析系统,从而为用户提供个性化服务;
2、通过数加BI报表产品,3分钟即可完成海量数据的分析报告。产品支持多种云数据源,提供近20种可视化效果。
3、通过数据可视化产品DataV,一星期就能做出双11同款大屏。这款产品,曾支持了阿里巴巴多年的双11、双12作战指挥。
同时,基于DataV,数加还发布了面向政府的行业应用产品“郡县图治”。通过这款产品,县长可以在一个屏幕下统览全县各项经济民生数据,为政府决策提供辅助。
1.1.5 机器学习:
对于时下大热的机器学习,数加更是提供了全面支持。“数加”发布的机器学习工具,可基于海量数据实现对用户行为、行业走势、天气、交通等的预测。图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发。产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。
1.1.6 数据应用:
为了能够帮助开发者更快捷在应用中集成大数据功能,“数加”同时提供了规则引擎、推荐引擎、文字识别、智能语音交互等数据应用产品。
规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。比如,银行会设置如果10分钟内用户在两个省份交易,则需要电话确认。
推荐引擎是一款用于实时预测用户对物品偏好的数据工具,它能够帮助客户发现众多物品中用户感兴趣什么。
文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。
智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机,智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。
2.2针对高法的解决方案
2.2.1 高法解决方案技术框架
1、采用私有云方式建设
2、在政法网内部部署阿里ODPS一体机,共包含10台服务器,其中7台管控节点,3台计算节点。本部分预算250万。其中计算节点可以扩容。
3、阿里云一体机已包含ODPS大数据处理平台,费用已包含在内。
4、ODPS大数据平台可部署阿里数据抽取工具,在各数据库抽取数据,并实现规范化。ETL抽取工具的预算100万。
5、以此为基础,以阿里为主题,期做相似案件分析的应用,可快速出成绩。本部分预算100万。
6、引入ISV,并进行算法的持续的开发和合作。
2.2.2 解决方案特点
1、部署要求是须购买阿里云服务,数据处理方式“黑盒模式”。
2、数据标准化与后续的算法应用基于同一平台,可持续演进。
3、ODPS支持多租户,可面向各业务处室开展应用开发。
4、在算法领域持续领先,快速出成效。
5、在法务部和电子政务执法领域可展开深入合作。
2 oracle大数据
2.1 特点与架构
传统业务数据为主,商业化服务支持,简化架构,更多精力在业务层面,部署模式比较灵活。
2.2 针对高法的解决方案
部署内容:
ODI/OGG( Oracle Data Integrator)
提供实时/批量大数据收集工具;
Oracle NoSQL 数据库
分布式的、高可扩展性的键-值数据库;
Oracle大数据一体机-完整的Hadoop平台
大数据一体机(200万);
Oracle Big Data SQL实现跨平台统一数据访问;
提供大量的分析工具;
Big Data Discovery:Hadoop的可视化和探索工具
不需要进行建模即可以交互式访问和探索;
BIEE/DV
Oracle BIEE是一个非常有创造力的工具,它对于物理层,逻辑层,展现层的理解和定义创造了一个非常简洁而清晰的数据模型,使用这个数据模型可以完整地连接企业内各个异构数据源,从而使商业智能真正能够在企业范围内得到大规模部署和使用。
3 第三方大数据
3.1 特点与框架
以开源架构模式进行大数据整体框架的架构。
3.2 针对高法的解决方案
建设内容:数据实时汇集平台、数据中心改造升级、数据综合管理系统、大数据主题应用数据仓库、大数据基础支撑平台、大数据应用工具箱系统、大数据可视化平台。
3.2.1 数据实时汇集平台
对分散在各业务系统ORACLE数据库的信息进行实时、准实时、定时的复制。复制的数据将统一汇总进入原数据中心数据库。
3.2.2 中心基础数据库
原有数据架构形成一个数据汇集层,用于承载业务系统的数据。
3.2.3 数据综合管理系统
该系统包含的核心内容之一为在业务系统数据库中设置数据校验层,从根本上解决建设目标中的数据质量问题。
3.2.4 大数据主题应用数据库
大数据主题应用数据库是原数据中心数据库的升华,通过分析、清理、归类等形成面向不同应用主题的、不同纬度的数据。
3.2.5 大数据基础支撑平台
数据支撑平台采用基于Hadoop、Spark架构的大数据体系架构,为商业化封装版本产品。其核心分为三个部份建设工作:存储部分、分布式计算查询部份、算法工作流部分。
3.2.6 大数据应用工具箱系统
大数据核心价值具现化的载体,通过交互式查询接口实现大数据MPP主题应用数据库的访问,通过算法工作流接口实现大数据非结构化数据的访问和计算。
3.2.7 大数据可视化平台
智能分析的成果可视化展示平台工具。
4 综合对比结果
阿里大数据是基于互联网模式,数据以非结构化、新数据为主,适用于公有云服务。
oracle大数据是以传统业务数据为主,数据以结构化为主。
第三方大数据则以保证数据质量为前提,通过一种新的设计模式,来强化大数据的应用展示。
咨询中心 潘存利 供稿