商灏
一个令人瞩目的现象是,当前在通用人工智能市场,投资快速增长。许多很活跃的企业不断受到投资者追捧。天云大数据公司CEO雷涛说,这个市场现在都是百亿以上的体量,短期内两三百亿量级都很轻松。从融资的角度看,或从企业服务角度看,雷涛认为,现在泡沫吹得很大的就是人工智能。但在市场上,人工智能的真正价值并未凸显出来,仍然都是早期的一些应用级的AI项目,像人脸识别、无人驾驶、聊天机器人这些应用级别的人机交互,它们是更容易被人理解的AI。从产业内部的角度看,由于现在需要有更高阶的技术处理能力,需要有更高阶的科技力量,这对产业内部的维度是一次彻底的颠覆和革命。传统的数据库,有存储,有服务器,但现在,存储和服务器合并在一起了,以后不会再有单独存储的概念,这些在分布式计算领域带来太多对原有IT世界的革新,和对IT阵营的洗牌。
于是笔者问他,从IT到DT,产品和技术飞速发展的趋势,产业和市场急剧爆发的趋势,该怎么看?它带给业界、带给用户什么样的不安和启示?
作为很早就参与了北京市祥云工程的资深IT技术专家,雷涛认为,从历史来看,每一项新技术都需要一些早期采纳者,而这个早期采纳者,通常就是银行。它们貌似保守,但它们技术的成熟度较高,对一些新技术较快达成共识,先行采纳。这使得人工智能、分布式的计算等核心技术较快在银行落地,就像Gartner(高德纳公司,全球最具权威的IT研究与顾问咨询公司)技术成熟度曲线一样,确实因为有一些早期采用者能够很快对这种新需求和新技术产生碰撞后的共识,天云大数据公司才有了后来的各种Fintech(金融科技)的称号。
从行业角度看,雷涛的观点是,IT和DT的变化来自于原有的流程驱动面向数据驱动,这意味着商业流程再造。以JAVA数据库为核心的技术推动了整个IT二十年的发展。但现在我们越来越多的发现,数据科学的驱动,一些基础的算法改变了我们原来基于经验和流程设计的那些商业构建。IT向DT转换的过程,就是信息化数据科技带来流程驱动转向数据驱动,数据变成真实有效的生产资料。
焦虑的CIO需要选择如何面向新需求
这一技术发展新浪潮中最主流的东西到底是什么,将会如何影响用户的选择?雷涛说,按照现在市场上一般的看法,三架马车并驾齐驱,数据、算法和算力,三个缺一不可,它是一个螺旋上升的过程。首先没有算力支撑不起现在的大规模数据,有了数据才需要更多的算力,拿这个算力才可能驱动现在新的算法。所以,如果从核心技术看,数据、算法和算力三个都非常关键。光强调算法,没有一个持续有效的数据供给,不是一个好的生意,没有实现的闭环,数据不能够重新去训练算法。如果拿算法去解决一个one off一次性工具的话,这个效果不好。所以这一次的技术革命实际上是一个融合性的创新,而不是某一个单项技术的革命,它是融合的产业创新。就像瓦特发明蒸汽机,最后真正对产业结构发生根本性变化的是轮船业,它最后改变了航运的效率和规模。
面对技术巨变的趋势,部委、大企业的技术主管们,现在有什么样的焦虑?
雷涛表示,CIO的焦虑肯定是存在的,因为他感受到了新技术断崖式的变化,这场断崖式的变化就是分布式计算真是一次大洗牌,全方位的洗牌,把整个原来的信息化结构改变了。这也就意味着原来沉淀下来的壁垒最高,最能保护自己的那套知识体系现在有些崩塌了。而在需求驱动层面,原来的IT部门更多是一个支撑部门、成本中心,其需求来自业务方。业务方提要求,IT部门解决成本效率的自动化问题,这是IT系统带来的便利。但在人工智能这里,业务方开始直接跳过IT部门,通过算法主导了这一次的变化。我们看到很多项目都是这样。所以CIO们开始面临着不仅仅是自己技能短板的焦虑,现在越来越多的数据服务不是产生于IT部门内部,而是直接从一线的数据员,一线的业务端采纳了一些新的方法以后,跨越式的跳过了IT支撑的环节。拿海关来说,现在缉私,或追查逃税的人群,其实都是用算法来实现的,而不再用代码一行一行的写出一条一条规则,把经验沉淀下来再抓那些逃税的人。所以,CIO的焦虑,是客观存在的。
笔者问雷涛,进一步看,现在部委、大企业的IT系统,曾经用了当时最先进的设备,即便仍然继续稳定运行,但效率是否已经远远落后于实际需要?由此产生的焦虑是否客观存在?是否还有另一种焦虑:想用新技术,又怕随之可能造成系统不稳,安全出问题。这是否是最大的焦虑?
雷涛认为,这还是需求导向驱动,如果是对原有信息化系统的一个替代,这个顾虑是客观存在的。他说,现在我们发现,新系统并不是对原有系统的替代,而更多是在一些新的零消费市场里新的出现。以风电行业为例,这个行业原来更关注的是整个生产流程自动化,ERP系统的数据用传统的IOE结构支撑是没有问题的。往往动到新的大数据,为什么是运营商先动,金融先动,是因为他们开始关注到了在传统的后端运营管理系统之外大量用户的行为数据,传感器物联网那些机器的数据,这些数据无论从规模还是其产生的持续密度和连续性还有频度上,远远大于其商业交易的数据,传统IOE这时候做不到了。这个时候CIO面对的选择就是面向新的需求,其风电什么时候该换,什么时候该去做运维,怎么去智能的预测什么时候该换齿轮还是换螺丝了,这些关键部件失效的预测来自于大量的物联网数据。而原来信息化系统没有这个数据反馈,我们将这个市场叫做零消费市场。
DT的本质有三个核心支撑:算法、算力、数据的商业化
所有的国外创新都是零消费市场才会出现,很多创新都来自于新的需求不断的挖掘,因为数据资源出现了。因此对于CIO而言,最关键的是他需要开始把目光从流程转向数据。雷涛认为,哪些数据资源是可被实现和挖掘的,那些数据还没在系统,已经沉淀在磁盘上的数据往往价值有限。更多大规模的数据没有被关注和采集。比如银行大量的行为数据是客户之间的,不是存钱取钱这种交易数据,而是用户大量的非金融类的相关行为数据。
所以首先必须把关注点放在数据上,而不是在流程上;第二是要关注数据科技人才的培养,因为这是支撑流程再造的根本。必须能够组织新型的人才支撑技术应用的变化;第三是能够找到一些试点的项目,在组织边缘做一些创新、试点项目,这样的话能够了解新技术,锻炼新团队,能够适应DT的过程。
怎么认识DT的应用范围和深度?雷涛认为,对DT应从两个维度去理解:第一是data,以前很多人认为从数据本身的数据集描述的时候它有几个V:Volume(体量大)、Velocity(速度快)、Variety(多样性,种类多)、Value(价值高)。但我理解的DT如果局限在数据集的描述,这是IBM厂商的思路。因为当你讲完了这四个V,就基本就能够知道能不能对号入座买昂贵的IBM设备了,这是一种市场策略。其实我看DT的本质,它有三个核心的支撑,第一个是算法,第二个是算力,第三个是数据的商业化,怎么去定价、交易、流通。所以这三个核心事实上是商业、IT和科研三者融合。所以全是DT的核心。
DT革新的速度和周期有多快?雷涛说,从算法的迭代上可以看出,以前的算法迭代15年一个周期,现在算法迭代三、五年一个周期,论文的更新三五个月一个重大的发现。IT迭代的速度最快的核心定律就是摩尔定律,就是以芯片更新的速度来支撑IT的变化。DT在算法和数据上的爆发,却是几何基数的。现在新的万物互联,5G、LVT带来的门锁,越来越多低端设备的智能化,它是数据规模的增长,是一个爆发的过程。
就算法本身而言,算法现在的演绎和推理已经不是在白纸上公式推演的过程了,现在很多算法迭代的过程,比如说怎么用机器解读视频,给视频自动写字幕,对抗神经网络(对抗神经网络是机器博弈出来的结果),也就是说算法模型是机器在自我演绎中创建出来的,人已经从这个制造过程脱离,让机器和机器自己推演,所以这个创建的过程是一个更大基数的过程。
笔者问,“AI的方向是规模化发展”这个判断是怎么得出的?它的意义是什么?答曰,这个判断是在今天这个特定历史时期,在这个时点提出来的,我们已经过了算法精巧化时代。其实在上世纪90年代,谷歌等一批新的互联网公司,就把算法真正投入了生产,验证了很多精巧极致的算法,怎么做语音识别,神经网络怎么做图象识别,但那个时代已经过去了,我们理解这是上一个十年AI的内容。现在,我们要把创造的价值从局部应用的点扩展到更为广泛的商业流程的重塑,这是DT时代的本质,任何一个流程都需要算法替代,这个过程开始需要昂贵的科学家人才才能实现。
用户面对这个趋势应该有自己独特的要求?对,最早应该是在2015年,硅谷提一个概念叫AI的Democracy,然后在技术上也有很多相应的词、概念,比如数据科学的工程化一系列的支撑,都是在相应的不同角度来演绎同一个概念,每一个重大事件出现都是各个因素组合在一起,都是需求、技术的准备就绪这些因素的组合。[]
市场需要提供普遍通用、试错的平台
很多人都知道什么叫人工智能,可以用它来做什么,但却不知究竟该怎么做,以及如何在做的过程中不掉进坑里,就是说实现技术目标的路径和经验,到底有多么重要?雷涛觉得,经验固然很重要,但我们现在也面临着一个有太多未知的零消费市场,这个时候,就需要提供给市场一个普遍通用、试错的平台,可以很低的试错成本去总结出行业里独特的经验。这种试错,代价如果很低的话,就会让相应的规模化生产在任何一个角落发生。所以,更重要的是把经验固化成一种工具化的平台能力,这可以让很多人用喝杯咖啡的功夫就越过原来踩的坑或走过的弯路,实现既定的技术目标。
从这个角度看,业内目前有哪些最著名的公司,有哪些产品、技术受到市场追捧?雷涛说,其实这要看谁在追捧。资本市场追捧的是AI应用类,就是垂直端,比如像一些人脸、芯片,要么就是特别底层,我们也看不懂,觉得它未来高爆发性可预期,就是做AI芯片的。要么就是在最表端的,就是能够做到AI应用的,现在人脸识别已经过了那个风口。现在是应用端和芯片端两头被资本追捧。在市场价值上比较受认可的,是那些变现能力比较强的企业,那些能够针对用户流程里的需求做改造,用算法替代以前后端系统流程上的一些环节的,比较落地的、工程化的实操能力。
讲到“坑”,那究竟是什么?怎样造成的?怎么样才能非常有效果的避免掉坑里去?笔者最后向雷涛抛出了自己最关心的核心问题。雷涛说他理解的“坑”有几方面表现:第一,是选择方向上的坑。以前结构化市场,有存储有数据库有服务器,现在新技术概念的方向特别多,尤其是在分布式计算里,面向一个多层的计算空间,不是只有一个Oracle,而是有流数据、内存计算、跑P的,MPI的,图的,各种各样的场景计算。这意味着,既然有很多方向,每个方向可能就是一个坑。所以,这个时候,首先就要看有经验的架构师,能否把各种场景对到每个方向上来。比如说现在新的HTAP,混合交易和分析场景的数据库,分析挖掘和在线服务一体化了,这个时候架构师的能力将起到决定作用,否则就要把一个一个的场景都试一遍,那代价就很大。第二,是开元带来的坑。很多坑是被开元挖出来的。开元说,能不能做一个流数据场景?人们突然发现流数据里头有Spark、Stream,有早期的Stone、Flink,也有用Kafka去做的,这么多的计算框架更适合于什么?一方面可以选择某个有优势的场景,另一方面每个有优势的场景都有它的缺陷,需要很牛的人来帮助趟过这些坑。所以,开元进入门槛低,走出来却很难。
对技术本质的透彻认识,和对发展远景的深刻洞察,使得雷涛这样的技术精英可以带给自己的团队比较清晰的思想路径和技术演绎路线与目标,但在当下AI规模化的大好时机,在新旧技术更替的趋势面前,越来越多的厂商已经认识到不能再像IT时代那样单打独斗,而是需要联合有不同功能、不同产品技术、不同服务特征的厂商去打赢市场。雷涛认为,在新的结构形成的时候,联合肯定是最有效的方法,今天随着技术迭代,我们面对的是怎么去跟旧世界的势力PK问题,这个时候必须联合出一个端到端的方案。(主编商灏 编辑严葭淇)