中国信通院何宝宏:开源从“通用”走向“场景化”,下一代开源正在路上

2021年,“开源”被首次写入国家“十四五”规划,开源凭借开放、协作、共享的特点,已成为全球软件开发和产业创新发展的主导协作模式,为信息技术高质量发展提供了强大助力。与此同时,新一代人工智能、大数据、云计算、工业互联网、区块链等技术领域正结合开源,呈现出技术与产业协同共进共融的态势。

如今,通过开源开放模式加速信息产业生态共建已经成为业界共识。2023年9月21日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2023 OSCAR开源产业大会”在北京举行。会上,中国信通院云计算与大数据研究所所长何宝宏首次与业界分享对下一代开源的最新见解与观点。

开源拒绝重演“公地悲剧” 25年来取得巨大成功

25年来,开源以“违反”经济学基本原理的方式,以共享代码的方式大规模生产“数字公共品”。然而,在开源领域,经济学中的“公地悲剧”并没有出现。“公地悲剧”是一个经典的经济学问题,描述了个体在追求自身利益的过程中,导致公共资源过度使用和衰退的现象。

互联网的快速发展正是得益于开源的成功。从早期的操作系统Linux、安全通信OpenSSL、数据库My SQL、门户工具Apache、排版引擎Webkit,到近年来的手持终端Android、网络Open Daylight、云计算Open Stack、大数据Hadoop、容器Docker以及AI深度学习领域的TensorFlow和PyTorch等,这些借助开源互联网而起的开源软件,今日又成了互联网的基石。可以说,互联网与开源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。

目前,开源许可协议类型有2700多种,主要差异性体现在对分发衍生软件的限制不同。在全球活跃度的前1000个开源软件中,超过60%使用MIT、Apache 2.0以及BSD宽松型许可协议。

何宝宏指出,如今开源已取得巨大成功。从生态规模看,全球开源生态成熟繁荣,全球开源软件项目高速增长,覆盖当前主流技术领域,全球开源贡献者储备规模庞大。从行业应用看,全球行业开源逐步兴起,各行业应用开源模式建立产业开放供应链,提升生产效能。此外,开源模式正在引领科技实现越来越多的突破。

开源许可协议面临新环境 从“通用开源”走向“场景化开源”

多年来,开源促进组织OSI(Open Source Initiative)维护着对开源的定义(OSD),以及其认可的开源许可协议列表,目标是促进和保护开源软件及开源社区。一切不满足OSI所规定的全部十条要求的开放许可协议,都会被开源权威机构OSI认为是“非典型性”开源。

开源许可协议从最早的GPL开始, 逐渐演进到GPLv2和v3,中间还有Apache、MPL、AGPL、LGPL等,但是近几年来有一批新的许可协议出现,引起了社区的一些激烈的讨论。这些新的许可协议包括BSL、SSPL、Elastic以及一个比较特殊的附加条款Commons Clause。

但OSI的这10大原则,诞生于20多年前,聚焦的是软件代码,更多是关于软件产品,属于通用开源范畴。近年来,开源的这一经典定义面临着新的挑战与重构,尤其是来自云计算、大数据、大模型和AIGC的挑战,让开源早已不在局限于通用领域,更多转向聚焦于数据、服务等场景化开源。

如今,云计算已经催生了一批“非典型性”开源许可协议。早期的开源许可协议,未涉及到云服务场景的分发形式。市场现实是云厂商基于开源技术推出云服务,但贡献甚少。于是,一批开源项目修改了开源协议,比如限制云服务模式的SSPL许可协议。

随着大数据尤其是数据资产化,开放数据和数据流通成为一种新“开源”模式。数据通常是事实和信息的表达,而版权通常适用于原创创作的表达形式,版权通常不适用于数据资产。

AI大模型涉及的开放许可证类型更为复杂。仅Hugging Face上开源的人工智能模型就超过28万,涉及66个开源协议,大致可以分为三类。第一类是通用开源软件许可协议,比如Apache 2.0/GPL 3.0/MPL 2.0;第二类是知识共享许可协议,比如CC-BY-4.0;第三类是人工智能大模型开源许可协议,比如Llama/OpenRail等。

相对OSI经典的开源定义,开源AI大模型都会对“古典”开源的定义做成新限制,多为用途和生成内容的输出。对于AIGC,更是存在新的争议,比如:AIGC生成的代码,可否参与开源贡献?目前各方对此类问题试图进行规范,比如:

2023年3月,美国版权局发布《AI版权认定声明及登记指引》,纯AIGC作品不受版权法保护,进行版权登记时需要披露AIGC部分。Apache基金会发布《第三方许可政策》,提出“AIGC的条款与开源定义保持一致”贡献者注明创建贡献时使用的工具,例如包含“Generated-by”。

事实上,AIGC涉及的版权和开放许可,还未形成广泛共识。何宝宏指出,开放许可协议的基石可分为几个阶段:软件著作权—>著作权—>知识产权—>知识产权+。涉及到开放数据和开源大模型许可协议,更需要考虑使用场景、商业收益和科技伦理问题。

迎接下一代开源 需与现实世界适配

当软件从产品成为服务,当开放的对象从代码延展到数据和模型,当开放许可的法律基础从版权延展所有权,当代码生成主体从自然人的程序员延展到AIGC,当开源与现实中的法规制度、隐私保护和科技伦理日益密切时,下一代开源将向何处去?

开源软件促进会OSI(open source initiative)对于开源提出了十个条款,包括:自由再发布、源代码公开、允许派生作品、作者源代码完整性、不能歧视任何个人或团体、不能歧视任何领域、许可协议的发布、许可协议不能只针对某个产品、许可协议不能约束其他软件、许可协议必须独立于技术。

目前,OSI已启动Open Source AI的定义讨论工作,定义了开放数据和人工智能系统的基本原则,涉及数据安全、版权所属、监管要求、道德伦理、责任认定等多个方面。

总体而言,何宝宏认为,下一代开源需要从两方面进行规范:一方面,开源应该与现实社会深度融合,遵守现实治理规则,如:监测统计、自律公约、责任边界、安全防护;另一方面,开源的发展也需要跟随社会长期性和周期性的发展规律。

为您推荐