互联网遭遇“数据流动死结”,该如何打破数据壁垒?

科技云报道原创。

数据之于互联网就像血液之于骨骼,但如今,互联网企业和政府部门之间的数据壁垒就像一个个血管中凝结的血块,阻碍了大数据的自由流动,这成为互联网时代解不开的“死结”。

在全球范围内,麦肯锡发现,在过去十年中,数据流动使全球GDP贡献增长了10.1%。与连通性较低的经济体相比,连通性较高的经济体获得的收益最多高出40%。

全球的五流(商品流、服务流、金融流、人员流和数据流)对全球GDP增长的贡献为每年2500-4500亿美元,相当于全球经济增长的15%-25%。

在大数据时代,这些庞杂的数据虽然孕育着各种机遇,但在全球范围内,企业数据共享这一概念还远远没有达成共识。数据无法自由流动成为摆在企业面前的一道难以跨越的门槛。

互联网巨头欲打破“数据壁垒”

为增强平台之间的数据流动,2018年7月,Google、Facebook、Microsoft、Twitter四大互联网巨头联合发起了一项名为数据传输项目(Data Transfer Project)的新标准。

该标准旨在增强平台之间数据流动的新方法,允许用户将数据在不同服务之间直接转移,而不需要下载和重新上传。

当前版本的系统支持照片、邮件、联系人、日历和任务的数据传输,这些API来自Google, Microsoft, Twitter, Flickr, Instagram, Remember the Milk和SmugMug。据悉,该标准框架的源码可在GitHub上获取。

四家互联网公司之所以发起这样一个项目,是看到了数据流动对于互联网发展乃至整个社会繁荣的重要性。长期以来,谷歌和微软的工程师一直在设想一个更强大的数据传输系统。

该项目的白皮书称:“数据传输项目的目的在于,让用户对于个人数据拥有更多控制权。未来,可移植性需要变得更加包容、灵活和开放,我们希望能够连接任何两个面向公众的产品接口,可以直接导入和导出数据。”

据了解,该项目大部分代码库由“适配器(Adapter)”组成,可以将专有API转换为可互操作的传输,使Instagram数据可用于Flickr,反之亦然。在这些适配器之间,工程师还构建了一个系统来加密传输中的数据,为每个数据发出前向密钥(Forward-Secret Key)。

但传统的API传输正在遭到公众对于隐私泄露的质疑,Facebook依旧没有脱离Cambridge Analytica的阴影,谷歌也被自己的API丑闻困扰,因第三方电子邮件应用程序处理Gmail用户数据不当而遭到强烈抗议,业界仍在摸索用户应该对自己的数据抱有多大的信任。

开放算法技术推动数据共享

虽然四大互联网巨头主动迈出了数据共享的第一步,但可以看到企业数据共享仍存在重大障碍。据欧盟数据共享报告指出,妨碍数据共享的最常见的因素包括:技术、成本以及法律障碍。

更具体地来说,技术障碍可能包括缺乏互操作性、安全顾虑和其他网络安全要求;成本障碍主要指基于数据长期、安全的储存需求可能产生的基础设施投资;法律障碍主要是“数据所有权”的不确定性、对数据合法利用的边界,以及在满足企业对数据保护方面的法律需求上遇到的困难。

在数据再使用方面,直接拒绝、歧视、代价高昂、缺乏互操作性和数据标准化都是目前企业面临的主要障碍。此外,通过该报告的案例研究显示,在B2B的数据共享中,企业的技术能力和法律合规能力至关重要。

针对这一课题,目前全球极具前瞻性的技术解决方案为OPAL(Open Algorithms,开放算法),该理念由麻省理工学院教授阿莱克斯·彭特兰(Alex Pentland)首先提出。TalkingData是唯一一家与麻省理工学院连接科学研究所达成合作的中国企业,参与到OPAL框架的技术研发中,共同探索保护数据安全前提下的数据共享新范式。

该框架摒弃了以往先转移数据再进行处理和分析的做法,改为利用分布式技术进行数据存储和运算,并在流程中都保持数据的加密状态,再将经过验证的算法前置到数据端,不移动数据而只提供安全的分析结果,实现在从数据中获得有价值的洞察的同时,有效保证数据安全与流程合规。

TalkingData CEO崔晓波曾表示,“要解决数据安全问题,只能数据不动,通过算法流动来解决,这是一个终极目标。”OPAL技术解决方案的优势就在于,以不流动数据、只流动算法的形式,在对数据进行加密保护的前提下将各方数据与业务需求关联,针对具体需求输出数据探索、分析的结果,安全合规的从数据中挖掘价值。

从理论上看,这个框架根本上解决了数据安全、数据使用的互操作性等问题,也筑起了合作企业之间的信任之墙。

区块链将成为数据确权“利器”

正如上文所提到的,法律和政策体系在促进数据共享方面也发挥着非常关键的作用。数据流动、使用、交易的首要前提是数据确权,数据一旦被确权,就可以实现数据的合规交易与价值转移,也就拥有了资产属性。

对此,要先让身份数据的自主权回归到用户手中,这样用户才有和互联网巨头们公平对话的权利;其次,有必要区分隐私和隐私数据,隐私数据的开放不等同于披露当事人的隐私,哪些数据可交易、哪些数据属于隐私,应该有明确的界定,保证个人隐私不被贩卖,这需要国家强有力的监管。

另外,要在法律上要对隐私进行细分,针对不同的隐私建立不同的搜集、开放、交流程序,针对不同的隐私数据建立不同的保护等级。隐私数据的再分类和开放,核心是设定隐私的统一程序,以及不同隐私数据的开放范围。

最后,应当实行市场准入制度和严格监管机制,对于参与和建设主体进行严格要求和监管,在这一点上国家层面的力量更是不可或缺。

由于个人用户数据价值巨大,业界也提出了通过区块链等创新技术,进行数据加密、匿名化处理,这样保证了数据的原始性,不会导致数据关联时分析价值的降低。

在对数据确权过程中,区块链对传统数据采集和交换模式进行完全解构,凭借可追溯、不可篡改等特性,有助于形成完整的大数据交易信息流,通过比对区块链上的同类别数据以及交易历史,能合理地对新登记的数据资产进行估价,同时还会帮助用户自主选择个人数据的开放程度,当任何组织或机构在网络上发起对个人数据采集的需求时,数据的交换主动权完全取决于用户自己。

通过区块链,可以对包括智能家居数据、物联网数据、生活数据在内的个人数据进行确权,这些数据的所有权、使用权、商业权都将归用户所有。数据确权将最大限度保障用户权益,将真正让用户从数据的免费提供者变成受益者。

值得注意的是,除了使用区块链等创新技术,在企业共享和再使用数据过程中,许可协议是必不可少的要素,协议明确界定了使用数据的条件和限制,也规定了数据可再使用和用于何种目的的期限。许可协议除了提供法律保护外,还是确保企业之间信任的关键工具。

在竞争日益激烈的大数据时代,企业的数据合规能力建设已不再是纯粹的风险规避型成本支出,而是逐渐成为企业的核心竞争力之一,并将持续为企业直接创造利润和更大的价值。在数据共享难题面前,除了技术能力外,企业的法律合规能力也是解决该难题的核心能力,这也正是全球政府和企业共同为之努力的方向。

【科技云报道原创】

微信公众账号:科技云报道