本报记者 傅碧霄 北京报道
3月26日,由华夏时报社主办的“数据智能重塑实体:2022智能数据论坛”成功举办,本次论坛为线上形式。论坛集结了数据智能相关领域的专家学者,深入探讨当前行业发展的新趋势。
蚂蚁集团副总裁、蚂蚁集团安全隐私科技委员会主席、北京大学客座教授韦韬出席论坛并发表演讲,演讲主题为《数据密态时代的挑战和探索》。韦韬表示,2022年数据流通领域即将告别数据明文时代,并将开启数据密态时代的新征程。数据密态时代在技术层面面临诸多挑战,也对技术提出了新要求。韦韬认为,在这一过程中,可信隐私计算技术是实现这一时代要求未来最有潜力的技术方向,可以有效应对当下行业面临的合规、业务支撑、安全适用等挑战。
数据密态时代到来
韦韬指出,以往那种基于明文的数据流通、融合、交互方式,安全性难以保证,每一个环节都有数据泄漏、滥用的风险。
Facebook的“剑桥分析数据门”就是这样一个典型案例。2016年美国总统大选期间,剑桥分析公司在未经允许情况下将5000万Facebook用户数据用于政治广告之中,令Facebook陷入数据泄漏危机。虽然扎克伯格表示Facebook早已不允许第三方获得用户数据,且剑桥分析公司也已提交了删除数据的证明,但Facebook并未确认其数据是否确已删除,于是造成数据泄露。最终Facebook因违反隐私规定,被处以50亿美元罚款。
可见,明文数据流通的风险之大。
而就我国来看,在《数据安全法》和《个人信息保护法》颁布之后,数据保护也越来越受到重视。2022年1月,国务院发布《“十四五”数字经济发展规划》,明确坚持“创新引领、融合发展,应用牵引、数据赋能,公平竞争、安全有序,系统推进、协同高效”的原则。国务院办公厅印发的《要素市场化配置综合改革试点总体方案》,在建立健全数据流通交易规则方面,提出探索“原始数据不出域、数据可用不可见”的交易范式。
韦韬认为,在这些政策指导下,需要考虑如何通过技术创新以实现在保障个人信息安全前提下推动行业数字化发展。“2022年,无论是从法规要求还是技术成熟度来看,整个数据流通领域即将告别数据明文时代,从而开启数据密态时代新征程。”韦韬在演讲中这样说道。
数据密态时代的挑战与要求
在韦韬看来,数据密态时代在技术层面面临很多巨大挑战,如隐私计算就存在显著瓶颈。
首先是性能瓶颈,为满足原始数据不出域要求,隐私计算跨网络进行交互,这造成对网络通信依赖性很强,导致其性能难以提升;其次是稳定性瓶颈,任何一个通信出现问题都会对整个系统稳定性造成较大冲击,且这种风险不可控;最后是成本瓶颈,传统跨网络隐私计算对带宽依赖非常重,网络带宽一直是云计算领域最贵的成本。
这三个显性瓶颈又带来两大问题。
一方面是适用性问题。行业为了尽可能提升性能,要针对每一个场景做极致优化,导致每一个极致优化的算法仅适用于特定场景。
另一方面是安全性问题。为了追求性能上的提升,一些从业者会降低安全性要求。而韦韬认为,安全性是隐私计算第一需要保障的,不能在未达成共识的情况下任意做出妥协。
因此,韦韬指出,数据密态时代对于数据要素流通融合的基础设施技术提出新要求,具体包括性能、稳定性、适用性、成本、安全性等多种维度。在性能上,应达到每小时亿级的样本训练能力;稳定性要保证99.99%的可靠性;适用性方面应保证门槛低,技术灵活适用于多场景,对参与方数量限制少;成本也要足够地低,较明文计算的成本新增不超过一个数量级。
韦韬尤其强调了安全性,安全性的核心在于达成行业共识,且安全性并非追求“绝对安全”,要在安全性和行业发展之间要达到平衡。“就像高速公路,如果要保障绝对安全必然导致车速被限制得很慢,那么高速公路的价值也就不复存在。所以一定是在车流通行能力与安全之间达到平衡,通过技术来实现保障安全性前提下的效率提升。”韦韬这样说道。他进而指出,在行业应用中,安全性应针对不同场景进行分级,每个级别上的安全性标准须形成共识。
可信隐私计算技术
基于对数据密态时代所需要技术能力的分析,韦韬认为,可信隐私计算技术是未来最有潜力的技术方向。该技术的核心是在隐私计算技术体系以及技术实现层面提供可信支撑,对个人信息和敏感数据提供高效、全生命周期的安全合规保障。
在可信隐私计算框架下,业界可有效应对当前面临的合规、业务支撑、安全适用这三方面挑战。
首先,合规性是数据密态时代很大的挑战。《个人信息保护法》对数据使用做出了详细规定,形成了一个“授权墙”。而对于数据要素行业来说,假如数据流通中每个环节都需获得个人主体单独授权,那么数据很难真正流通。法规要求通过匿名化来解决这一问题,且匿名化要求非常严格,即匿名化数据必须不能识别出个人主体。
而传统的隐私计算技术并不包括对个人身份主体识别方面的保护。因此,韦韬呼吁增加“可算不可识”的要求,即数据可以计算,但不能识别出个人身份。“可算不可识”与“可用不可见”是未来可信隐私计算领域两项核心技术要求。
诚然,在实际操作中,绝对匿名化难以做到,绝对匿名化也意味着数据要素价值绝对损毁。韦韬指出,为了在匿名化要求与数据要素行业发展之间达到平衡,相对匿名化是目前公认的出路。相对匿名化并非削弱匿名化效果,而是对匿名化数据使用空间做出限定,不允许匿名化数据在开放空间中流动,只允许在受控空间中流动。这样可使数据在流通中依然发挥出价值。而可信隐私计算技术正是可以提供这种保障的最好的技术。
其次,在业务支撑方面,也就是性能可控性和适用性方面,引入可信计算技术,既能突破依赖于网络通信的瓶颈,又能提供更高安全保障。另外,可信隐私计算能够满足原始数据不出域要求,整体性能和可靠性也有很大提升。可信隐私计算在成本和场景适用性上亦有较大优势。
最后,在安全性方面,可信隐私计算技术,可以与当前的隐私计算技术,及多方安全计算、联邦学习等技术有机结合,吸收各方之长,提高安全性。
韦韬指出,进入数据密态时代,数据的安全性可分成四个级别:第一级是数据跨网的密态计算技术,安全性最高,但限制也最大;第二级是基于可信隐私计算的同网密态计算技术,适用性最广;第三级是可信环境下的数据融合流通技术;第四级是在企业或集团内部基于权限管控的数据安全技术,无需使用隐私计算。
总之,韦韬认为,当前行业面临的数据安全的挑战依然非常艰巨,而可信隐私计算将助力数据要素行业全面迈进密态时代。蚂蚁集团也希望通过行业共建,积极地共同应对当下网络安全和数据隐私保护的新挑战。
责任编辑:孟俊莲 主编:冉学东