本报记者 商灏 北京报道
工业和信息化部电子工业标准化研究院网站4月6日发布消息称,中国首项大数据领域国际标准提案新近通过专家论证,并认为这代表着中国大数据领域国际标准化工作取得重大突破,提升了中国在数据库语言领域的标准话语权。
由该院联合北京柏睿数据科技有限公司提出的《SQL对MapReduce及与之相关的流数据处理的支持》国际标准提案,也被认为是由中国独立提出的首项针对SQL标准的国际标准提案,目的在于扩展数据库语言SQL标准,使其支持流数据处理及大数据应用。据悉该提案2015年10月在日本东京召开的ISO/IEC JTC 1/ SC 32/WG 3 数据库语言工作组会议上提出时,得到WG 3召集人和参会专家的高度肯定。WG 3鼓励中国代表继续开展关于SQL标准为支持流数据而进行扩展的需求和相关技术的研究,进一步完善提案,争取早日在ISO/IEC JTC 1/ SC 32立项开展标准研制工作。下一步,中国工业和信息化部电子工业标准化研究院将尽快完成该提案的国内审批流程,并于2016年6月SC32全会上正式向秘书处提交该提案。
业内人士表示,随着大数据时代的到来,MapReduce作为主流的数据处理方式已被广泛采用,但其编程过程繁琐且对流数据的处理缺少规范化的操作。同时由于现行的ISO/IEC 9075数据库语言SQL标准不支持对流数据的支持,一些大数据解决方案公司为了使用SQL标准处理流数据开发了多种解决方案,使得SQL程序员需要理解各种方案及相关用法,增加了大数据系统的开发难度,降低了大数据系统的开发效率。该提案通过将MapReduce方法合并到SQL标准中,使SQL程序员可方便地通过标准的SQL语言使用MapRedece。符合该标准的大数据平台将极大降低大数据系统的开发难度,并显著提高大数据系统的开发效率。
接受《华夏时报》专访的业内著名专家、北京柏睿数据科技有限公司董事长刘睿民认为,划时代的RapidsDB,这是中国本土企业在该领域零的突破。
以RapidsDB的独特优势为基础,中国由此在数据库语言领域国际标准制定上,正在从参与者变成协调者和主导者。——这是一次具有历史意义的技术跃进。
技术标准是大数据安全保障
《华夏时报》:你怎么看大数据相关领域技术标准的国内国际现况?
刘睿民:目前国际上有4大标准化组织针对大数据进行专门研究。
ISO/IEC JTC1 SC32于2012年成立了下一代分析技术与大数据研究组,2014年6月启动了4项为大数据提供标准化支持的新工作项目。该组织重点研究对象包括元数据、大数据存储和检索、大数据所支持的复杂数据类型等。ISO/IEC JTC1 SC2正在进行大数据标准研究调研,其于2013年11月成立了大数据标准化研究组,2014年将提交大数据相关技术与标准调研报告以及JTC1在大数据标准研发中的需求。
ITU-T则重点研究基于大数据的云计算相关技术,ITU于2013年11月发布了《大数据今天巨大,明天平常》的技术观察报告,分析了大数据面临的挑战和ITU-T开展的标准化工作,目前该组织已启动“基于大数据的云计算需求和能力”新工作项目。
NIST 于2013年建立了大数据公共工作组(NBD-PWG),其重点研究对象包括术语和定义、用例和需求、安全和隐私、参考体系结构和技术路线等,目前已有这些方面的草案。
关于大数据标准研制在中国的发展情况,中国电子技术标准化研究院(以下简称电标院)发布的《大数据标准化白皮书》(以下简称白皮书)指出,全国信息技术标准化技术委员会(TC28)持续开展数据标准化工作,在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。具体而言,全国信标委于2012年成立了非结构化数据管理标准工作组,对口ISO/IEC JTC1 SC32 WG4。全国信标委云计算标准工作组目前正在开展大数据存储和分析应用的研究工作,旨在研究大数据存储和分析技术的应用分析、技术框架和标准研究等。全国信标委SOA分技术委员会负责面向服务的体系结构(SOA)、Web服务和中间件的专业标准化的技术归口工作,并协助全国信息技术标准化技术委员会承担国际标准化组织相应分技术委员会的国内归口工作。
另外,全国信息安全标准化委员会(TC260)是在信息安全技术专业领域内,从事信息安全标准化工作的技术工作组织。委员会负责组织开展国内信息安全有关的标准化技术工作,技术委员会主要工作范围包括:安全技术、安全机制、安全服务、安全管理、安全评估等领域的标准化技术工作。全国信安标委目前正开展大数据安全技术、产业和标准研究,为大数据的安全保障提供支撑。
数据仓库标准是行业标杆
《华夏时报》:工信部电标院为何选择与你与柏睿公司合作?
刘睿民:我归国前在硅谷Tandem公司师从图灵奖大神级得主Jim Gray,共同参与过Tandem NonStop SQL/MP的内核编写。Tandem公司的MPP分布式数据库迄今为止依然在欧美的高端市场傲视群雄。此外,我还曾在惠普实验室从事过海量并行内存数据库开发,担任过惠普大中华区数据挖掘总监、SUN/ORACLE大中华区服务总裁。但我感到,尽管凭个人能力可以做出优质产品,却难以带动产业上下游的配合与发展,任何产业级的影响力都离不开长期的深厚积累。
在数据库领域摸爬滚打20年,我深入了解到这一波大数据革命的颠覆性。传统的关系型数据库,无力承载海量数据的处理和分析。随着新一轮窗口期开启,数据库领域进入战国时代,各类列式架构、内存架构、NoSQL、NewSQL等新型数据库层出不穷。柏睿数据在国内首创的MPP内存数据仓库被认为是中国数据仓库领域的“诺曼底反攻”,并且最近完成接近千万美元级融资。柏睿数据前不久还获得“2015年度中国软件和信息服务大数据领域最佳产品奖”。
柏睿数据推出的Rapids Hadoop,Rapids DB,Rapids MGrid,Rapids Manager等产品,为客户提供了从大数据存储到分析挖掘的完整解决方案,其技术研发实力在国内名列前茅。
柏睿数据将在国家级的标准方面做更多的工作。数据仓库的标准是整个行业的标杆,只有设立正确的标杆才能更好的促进国产数据库的健康发展,企业级产品性能及服务才是根本。
《华夏时报》:怎么看柏睿公司提出的相关领域数据库国际标准提案的技术与市场的意义?
刘睿民:以RapidsDB内存数据库为例,它是一款分布式、纯内存化的大数据处理平台,基于大规模并行处理(MPP)运算架构,面向联机分析业务的内存数据库,通过组合具有高性能、低成本的标准服务器资源组成线性扩展的运算集群,高效处理各种由标准SQL语句组成的复杂查询分析请求,实时分析包括结构化、半结构化和非结构化的数据,为企业提供快捷的业务决策支持。它的出现突破了传统基于磁盘的数据仓库技术,解决了传统数据仓库难以分析结构化以外数据的难题,并通过高性能,线性扩展及整合方案为企业带来显著效益。它能够帮助用户进行超高速的数据查询、分析及处理,在金融、电信、电力、游戏、广告、交通等领域有着广泛的应用前景。历史上,MPP内存数据仓库市场一直被少数海外企业所垄断,RapidsDB的诞生,标志着“中国智造”又一次打破了技术壁垒,在世界大数据存储与实时分析领域发出了自己的声音。
技术现在成了硬门槛
《华夏时报》:你对技术与市场发展趋向有何判断和预测
刘睿民:首先,数据库领域正在窗口期,不少新机会正在涌现。IBM和HP守着自己的小机不放,但用户已经不要小机了,而且巨头们也解决不了大数据的问题。结构化数据原来占了99%,而现在却只占1%,从趋势上看,巨头擅长的地盘一下子变成了一个小市场。柏睿的产品不仅能处理非结构化和半结构化的数据,而且在结构化数据这块,还能替代巨头。
其次,产业发展自有其周期,数据库领域的老大Oracle已经走到头了。Oracle的核心技术诞生于30年前,但到现在,Oracle并没有修改过核心架构,只做了些外围修缮,这种单节点共享内存架构,无法支撑大数据时代快速扩展的需求。
第三,国内的企业级市场,现在光拼关系也不行了,数据量突然提升了1000倍,过去的IT架构,已无力支撑这种大容量的数据处理,所以技术成了硬门槛。这一波基于云和大数据的革命,会形成一个完全不同于以往的,非常开放的生态。
第四,云服务普及后,技术可以在云上部署。从市场角度来看,由于长尾效应,原来买不起这些服务的中型客户,可以按时、按需付费。这些中型企业也希望把原来行业的老大替代掉,所以他们有极大的意愿,去购买互联网上的服务。
具历史意义的技术跃进
《华夏时报》:对国内存进大数据领域相关技术发展政策你有何建言?
刘睿民:国内在数据库研发领域理论研究和人才培养上要加强积累。而不能做了十几年都没掌握产业链上最核心技术,也没研究所或机构在这个领域持续追踪,那样就只能谈一些类似Hadoop怎么用,基于实践和操作层面的东西。
反观国外各类的数据库架构设计,从上世纪70年代就已经开始积累。加州理工、加州大学圣巴巴拉分校、威斯康辛大学等高校,有专门的科系研究数据库,在知识上有传承。即使有这些积累,全球数据库领域核心人才,在美国也不超过200人。对核心人才的定义,得是做过SQL解析器、执行器、优化器,以及文件系统这几块最有技术含量的东西。即使在Oracle、SAP、Sybase这样的公司里,真正接触到数据库核心引擎设计的,也最多就是十来个人,更多人是围绕核心去写一些周边的功能。
数据库核心人才的培养需要过程。要从上层工具开发渐往底层深入,先做解析器,再做执行器,最后做优化器,循序渐进。表和表之间的JOIN,应该走什么样的执行计划,这中间的解析路径、优化路径如何设计,低下文件系统的读和写应该怎样配合,需要10年,甚至20年的工程积累。缺少了这些积累,也就只能做一些数据处理工作,底层开发根本轮不到你。
大数据时代的国家竞争发展优势,就是对海量数据进行分析,让数据变成对社会有价值的产品。目前中国虽初步具有这种能力,但空间还很巨大,因此,政府决策部门应尽快设立首席数据官的职位,这将有助于国家宏观战略决策中,各种数据不协调造成的应用管理中诸多问题获得解决。
大数据应用如果形成生态系统,在数据库和数据处理方面,包括中间件方面,可能会有基础软件升级的问题要解决,这可能会导致中国出现一些大的基础软件公司,并与甲骨文公司、SAP公司等国际巨头竞争。从应用软件方面看,中国可能会出现一些突出的应用,在虚拟现实和自动驾驶领域,中国也许同样会出现一些大公司。但这同样需要很多积累。
《华夏时报》:RapidsDB内存数据库的独创性对于中国所处大数据变革时代究竟意义有多大?
刘睿民:2013年我们的团队就开始进入许多人认为“高不可攀”的大数据MPP内存数据仓库引擎研究,并最终孕育出划时代的RapidsDB,这是中国本土企业在该领域零的突破。
RapidsDB不仅全面改善了大数据服务现状,也给亟待实施战略转型的用户们创造了升级契机,同时也促进了中国大数据服务产业的成熟。在“中国制造”向“中国智造”全面涅槃的过程中,RapidsDB可以帮助更多企业体验全新的大数据服务,迎接“互联网+”时代的到来。
为大数据系统的开发降低难度,提高效率,——以RapidsDB的独特优势为基础,中国由此在数据库语言领域国际标准制定上,正在从参与者变成协调者和主导者。——这应是一次具有历史意义的技术跃进。