AI 开源许可证的法律与伦理之博弈
人工智能正以闪电般的速度席卷世界,AI 的开源许可与标准就像是这波浪潮中的一道道引水渠,引导着 AI 健康、安全有序地开放发展。但其本身也存在一些争议:许可证的制定究竟是依赖伦理共识,还是完美的法律法规?
CSDN《开谈》栏目以“AGI 时代的开源协议”为主题,邀请到开源社联合创始人,Apache 软件基金会正式会员刘天栋;中兴通讯开源战略总监,LF AI & Data 董事会主席孟伟;LF AI & Data TAC 成员兼生成式 AI 委员会发起人谭中意,以 AI 的开源协议为切入点,探讨 AI 治理的发展脉络。
刘天栋从开源协作共享的角度,探讨了许可证技术和道德的悖论,发人深思。孟伟分析了 AI 开源与传统开源的不同之处,帮人们理清了 AI 开源充满挑战之处,并悄然将 AI 嵌入了 6G 通信的未来蓝图。而谭中意将目光聚焦于大模型应用,力图将 AI 的威力在各个领域展现无遗。
让我们一同进入 AI 开源的奇幻旅程,看看它究竟给带来怎样的精彩篇章。
精彩观点抢先看:
孟伟:传统的开源通常涵盖程序员的智力产出,是其脑力劳动的结晶。在 AI 开源中,这种情况更为复杂,它所涵盖的内容不仅限于人类智慧的输出或者脑力劳动,还包括了数据和算力两个重要方面。
刘天栋:人工智能的呼唤就是如此,你不应该回答,但你一定会回答,因为好奇心是无法遏制的,这就是人类的本性。
谭中意:如果一个产业缺乏规则,人们就会小心谨慎,而有了规范,就意味着可以更加积极地前进。这将促进 TOB(企业对企业)和 TOC(企业对消费者)应用的繁荣发展。未来的很多年,将大模型的能力应用到各行各业都是一个热点问题。
AI 开源许可仍处在百花齐放的早期阶段
CSDN:如何看待 AI 的开源?它和传统开源有什么不同?
孟伟:传统的开源通常仅涵盖程序员的智力产出,是其脑力劳动的结晶。而 AI 领域的开源则更为复杂,它不仅涵盖人类智慧的输出或者脑力劳动,还包括两个重要方面:数据和算力。
数据在 AI 开源中具有关键地位,缺乏数据支持的大模型几乎无法构建。数据不仅仅代表个体的脑力劳动产物,还牵涉到诸如人类隐私、伦理、合规等一系列问题。这使得数据在开源领域成为一个不可忽视的伦理和合规考量要素。
AI 开源还涉及到算力问题。在大模型兴起前,开源项目主要源自欧美等技术较为先进的国家。随着大模型的兴起,中东地区的石油生产国投入了大量金钱支撑算力资源,推动了大模型的研发。算力也可能会影响到开源项目的平衡,并带来一定的成本挑战。
CSDN:开源许可证是如何被制定的?
孟伟:许可证的制定过程与制定标准的过程相似。它通常涉及到多次征求意见,最终形成一个被广泛认可的版本。这个过程可能由一个牵头单位组织,可以是民间组织,也可以是官方机构。这个过程类似于制定行业标准,旨在确保许可证的内容具有广泛的适用性和认可度。
许可证在国内更常被视为一种约定或者合同协议,类似于网站登录时所遇到的用户协议。当我们点击“同意”时,实际上是与网站达成了一种协议关系,即我们同意遵守其协议内容。与此不同,在一些西方国家,特别是美国,许可证更多地涉及到版权和知识产权,究竟是一种“合同(contract)”,还是单纯的“许可证(license)”,还存在一定的争议。
CSDN:目前,业界开源的大语言模型越来越多,性能也越来越强大。但一些知名的大模型如 LLaMa 、Falcon-40B 等,其开源协议却频繁引发争议,业界关于 AI 的开源许可证和法规标准有哪些?
刘天栋:我们可以将法规划分为不同层级。最高层次的法律法规通常具有较高的一致性,这是因为它们经过多层立法和审批程序,具有较强的可持续性。然后是标准,这些标准在中间层级上变化较快,一致性相对较低。接下来是许可证,它更具灵活性,有多种类型,其中包括开源许可证。再往下是定制化的商业合同,可以根据需要进行修改。最后是适用于不同场景的可定制协议,这些规则可能会随着时代的变化而改变。
人工智能的崛起带来了许多新挑战,不同文化和地区的伦理观念可能会产生差异。在开源社区内部,关于伦理规范的讨论也引发了许多争议。问题在于,应该由谁来定义伦理道德?西方还是东方,还是其他文化?在不同地区的伦理观念和数据隐私安全之间寻找平衡,是当前急需解决的问题。
谭中意:Hugging Face(全球最大的模型托管平台之一)托管着许多模型,这些模型都遵循不同的许可证,大致可以分成三类:第一类是传统的开源软件许可证,例如 GPL、LGPL、AGPL 等;第二类是与知识共享和创意共享相关的许可证,如 CC 系列,这些许可证通常在图片、音频、视频等领域流行,涵盖了共享、商用等不同条件;第三类是针对模型和数据专有的许可证,例如"BigScience OpenRAIL-M"、"CreativeML OpenRAIL-M"等。目前,关于模型和数据的许可证违规引发的法律诉讼相对较少,许可证的发展正处于多样性并存的阶段,但随着人工智能的发展,这方面的法律案例会逐渐增多,推动行业进一步规范和发展。
AI 许可证应助力产业发展,不要教条化
CSDN:在制定开源许可证时,如何平衡全球适用性和地区差异?未来会出现一个全球公认的统一标准吗?
谭中意:中国在过去几十年逐渐完善产业发展规则。如果一个产业缺乏规则,人们必定小心谨慎,而有了规范,就意味着可以更加积极地前进,促进 ToB 和 ToC 应用的繁荣发展,对国内的人工通用智能发展会产生巨大的推动。
制定一个适用于 AI 模型的全球通用许可证相当有难度。因为模型体现人的价值观,而价值观带有地域特性,很难兼顾全球性和普适性。所以我认为,模型许可证可能在某些方面具备全球性,在某些方面又需要根据不同地区的特点来制定。所以要制定一个理论上适配所有地区法律的完美许可证不太实际,即使制定了也未必能得到实际应用和普及。业界现在需要满足工业界需求,能让开发者、上下游容易理解和应用的许可证。所以我认为,当前不必追求创造出完美、适用于所有情况的理想许可证,解决当前问题、促进 AI 产业发展并朝着正向迭代的许可证更重要。
刘天栋:在欧盟的人工智能法案和中国的生成式人工智能管理办法中,对数据和生成式人工智能的管理都设置了相当严格的限制。因此开源许可证不需要涵盖以上重复的内容,而应该专注于开源本身,将法律交由法律,将伦理交由伦理。无论是软件还是大模型,都应该鼓励开放。开源模型许可证应该遵循简单明了的原则,鼓励大家分享和传播软件、模型。无论是用于培训、重新训练还是重新分发,都应该是自由的。
在数据方面,特别是涉及到个人隐私的数据,无论哪个国家都需要更加谨慎,考虑数据的隐私和安全。同时,不要混淆开源软件和数据隐私的问题。开源软件和模型应当继续开放,而数据隐私问题可以通过国家法规和责任追溯来保护。
孟伟:新技术刚开始发展的时候可能都会比较混乱,因不同意见和利益而博弈,但随着时间的推移,肯定会趋于统一。遵循分久必合、合久必分的规律。
对于 AI 的许可证,国内已经开始行动,已经有两大标准机构在制定开源大模型的许可证,如“纸鸢”开放人工智能模型许可证,木兰系列许可证,其中开源数据的许可证已经相对完善。随着大模型许可证等相关问题的逐步凸显,一些案件和案例会让人们更加认识到问题的重要性。我们已经在积极地探讨和解决这些问题,以确保开源领域的健康发展。
CSDN:企业在选择开源模型、选择协议许可证时,如何能帮助他们的产业更好地落地?
谭中意:尽管大家对某些许可证存在一些争议,但目前来说,AI 统一使用Apache License 2.0 是最容易选择的,不管是代码、模型还是数据。因为这是在软件开源世界中被广泛认同为商业友好、兼顾软件作者和使用者利益的许可证,也是理解成本最低的。使用它是相对来说最方便开发者采纳。
但是,企业在选择软件、模型和数据的时候,许可证只是一个很小的部分,首先要考虑的是它是否能解决企业的问题。如果本身不能解决问题,即使它使用比较友好的许可证企业也不会采纳它。所以,在成本范围内满足开发者需求最关键,许可证只是一个影响因素。
回应 AI 的召唤,踏上星辰大海之征程
CSDN:过于强大的 AI 容易让人类产生危机感,你如何看待此类困境?
孟伟:这不仅仅是一个挑战,也是一个机遇。总有一些领域,机器无法取代人类,比如人际关系和情感上的交流。好比我和谭老师之间工作之外还存在情感交流,这种同志间的友谊是机器无法复制的。在人工智能迅猛发展的未来,我们需要充分发挥自己的情感价值,而不是仅仅机械地从事劳动。我鼓励程序员更多地走出来,加入各种朋友圈子,互相交流、学习,不仅是在知识上的交流,也在情感上真诚地互动。
刘天栋:人是不会被取代的,你应该向外探索、接受和融合。未来人类唯一的出路就是改造自我,同时享有 AI 的智能和机器的长寿,如此才能够征服星辰大海。而当下我们只能朝着新的方向前进,去探索未知。勇敢地迎接未来,摒弃悲观情绪。
人工智能领域有很多专家以及深度学习大牛联合起来,呼吁制止人工智能的快速发展,但我认为这样的呼吁并没有太大的用处。就像著名科幻小说《三体》里的警示:不要回答!不要回答!但我们依然不会停下探索的脚步。专家们对人工智能的呼唤也是如此,你不应该回答,但你一定会回答,因为好奇心是无法遏制的,这就是人类的本性。勇敢地面对未知,而不是回避。将人工智能与人类结合,迎接未来,我认为要拥有一种乐观的态度。
CSDN:对 AI 开源的未来,你有哪些关注的议题?
谭中意:目前我非常关注大模型的应用开发,即 LLMOps。在大模型领域,能够从事开发基础模型的人相对较少,而能够从事开发行业模型的人也不多,更多的工作是将大模型的能力应用到各行各业,并与现有的软件应用相结合,称之为大模型应用开发。星策社区最近不断在组织此类活动,邀请从事大模型应用开发的同行分享经验并交流体会。我认为,未来的很多年里这都是一个热点问题。
孟伟:就我所在的通信行业而言,我们的关注点已逐渐从通用的大模型转向了如何将其应用于通信行业。特别是在 5G 向 6G 的演进过程中,如何将人工智能及其能力(算法,算力,数据等)内生于 6G 网络中,成了我们目前重点研究领域。
刘天栋:Let's cross the boundries together, 一起携手跨越边界,是我正在做的,也是开源社的使命。最近参加一些国际会议发现,亚洲尤其是中国的代表,声量实在太少了。我希望中国的声音能够被更多的国际基金会、开源社区、政府机构以及企业听到,将开源传播出去。
推荐阅读:
▶三天召集 2200+ 名黑客,齐向 AI “投毒”:“50 分钟内骗过 AI,第一名可获英伟达高端 GPU!”
▶OpenAI 宣布首笔收购,团队只有 8 人,原项目停更!