原文载于《电子知识产权》2021年第6期
摘要:2021 年 4 月 9 日,德国马普创新与竞争研究所(MPI)两位所长 Josef Drexl 和Reto M. Hilty 率领其研究团队发表《人工智能与知识产权法的立场声明》,该研究分为“开发人工智能系统所需的输入”、“作为过程的人工智能”和“人工智能应用输出的知识产权” 三大主题,根据研究成熟度在以上三大主题下就二十六个要点提出了初步结论、可能的结论以及尚须研究问题的见解,并对它们逐一解释和推理。该声明有助于拓展读者对人工智能与知识产权法交叉领域的研究视野。
关键词:人工智能;机器学习;知识产权
2021 年 4 月 9 日,德国马普创新与竞争研究 所(MPI) 两位所 长 Josef Drexl 和 Reto M. Hilty 率领其研究团队发表《人工智能(主要涉及机器学习 /ML)与知识产权法的立场声明》(以下简称《立场声明》),概述了人工智能与知识产权法交叉领域产生的问题。《立场声明》以 MPI 数字经济规制研究小组的工作为基础。2019 年 7 月 5 日,MPI 曾专题研讨人工智能与创新和竞争的关系。2019 年 6 月 11 日,MPI 通过研讨会和文献研究,专题探讨过知识产权视野下的人工智能技术问题。本文仅就该《立场声明》择要介绍如下。
数字经济越来越受到人工智能的影响。人工智能很大程度是渗透到整个经济和社会的通用技术。欲充分发挥其促进创新和提升福利的潜力,关键是构建一个合适的人工智能法律框架。欧洲和国际决策者曾多次提出人工智能如何与知识产权法互动的话题。然而,在采取任何政策和立法举措之前,必须综合评估现行知识产权框架的适用性。尽管最近的讨论主要集中在人工智能辅助的和其生成的输出上,但更有必要系统解释知识产权法在人工智能创新周期中的作用。在此背景下,《立场声明》旨在广泛概述人工智能和知识产权法交叉领域出现的问题,并探寻解决方案。尽管《立场声明》主要从现行法(de lege lata)的角度(特别是在欧盟法背景下)进行分析,但其也确定了亟需在深度跨学科研究支持下进一步反射出的拟制法(de lege ferenda)有关问题。研究范围仅限于有关版权、专利、外观设计、数据库和商业秘密等欧洲实体知识产权法。《立场声明》同时认识到,知识产权框架需要与竞争法和影响人工智能领域发展的其他法律制度(包括访问数据制度)相匹配。《立场声明》总体结构上以技术为导向,凝练出“开发人工智能系统所需的输入”、“作为 过程的人工智能”和“人工智能应用输出的知识产权”三大主题。第二部分以较独特的见解总结当前的研究结果,以期指导未来的研究和讨论。第三部分详细解释了这些见解。特别是 “知识产权法和访问数据作为人工智能的输入” 一节研讨了最适于训练数据保护的版权、数据库特别保护和商业秘密问题。“作为过程的人 工智能和软件的知识产权保护措施”一节侧重于对构成机器学习过程关键要素的算法和模型(包括权重)的版权、专利和商业秘密保护。该节调查了现行知识产权制度多大程度上保护了这些要素,并考查了对其缺乏保护是否会引起不良后果。最后一节是“人工智能辅助的及其生成的输出物的知识产权保护”,一是为了确定不同程度的人力投入对评估知识产权保护主体资格的影响;二是为了探究对人工智能生成的输出物引入新型(知识产权)保护的正当性。(1) 用于算法训练的数据集很少满足版权数据库保护标准。依据欧盟《数据库指令》(Database Directive) 第 3 条,训练数据集理论上可以享有版权保护。当特定数据集被“选择”为“创造性输出”(例如人工智能生成的绘画)时即为此例。然而, 训练数据的选择和安排均不易满足原创性标准, 因为用于机器学习的训练数据集的选择和安排主要基于技术和功能考虑。尽管不可否认,创造性的选择某些情况下可能会在训练数据的选择和安排方面发挥作用,但目前尚不清楚哪些特定考虑因素在机器学习背景下是相关的和合理的。(2) 用于算法训练的数据集可以得到数据库特别制度保护,但具体保护要求仍有争议且尚不清楚。用于算法训练的聚合数据似乎无可争议地可以受到数据库特别制度保护。然而,讨论细节应侧重于哪些投资与保护相关。当从第三方获得预先存在的训练数据时,根据《数据库指令》第 7 条第(1)款,相应的成本可以作为“获取数据库内容”的投资。此外,标注可以被视为“呈现”和“验证”预先存在数据的一种方式。假如标注费很高,则其可能满足《数据库指令》第 7 条第(1)款的实质性标准。抑或可将标注视为创建新数据的一种方式,但根据欧盟法院(CJEU)的既定判例,这些新数据会不受保护。特别制度下训练数据的可保护性引发一个更大的监管问题,即改革数据库保护制度,以使其适合数据驱动经济本身。(3) 根据欧盟《信息社会指令》(InfoSoc Directive) 和《数字单一市场指令 》(Digital Single Market Directive)协调的版权例外和限制制度,尚不足以适用于保护旨在开发人工智能系统的知识产权主题。版权例外与限制的一个主要目标是确保个人利益与公共利益之间的平衡。政策性文件强调人工智能和数据驱动创新的期许性,并将这些政策目标与版权例外和限制相关联。然而, 对于处理数据(包括受知识产权保护的主题) 而产生的人工智能系统而言,目前的版权例外和限制制度似乎并没有确保这种平衡。公共机构和个人用户仍然面临访问信息的重大障碍。一方面,将数据用于人工智能训练不应不合理地限制权利持有人的正常利用。另外,在查看两个新的文本与数据挖掘(TDM)例外情况(DSM 第 3 条和第 4 条) 时,它们的要求和所涵盖的案例存在太多不确定性,从而降低该类条款的实用性。此外,这两项例外条款的有效性可能会受到商业秘密保护的阻碍(见本文以下第 4 个问题)。在评估应用《信息社会指令》第5 条规定的详尽例外和限制清单时,在人工智能环境中也面临着类似的不确定性。其次,有人建议根据《欧盟宪章》承认的基本权利使用法定例外和限制作为用户权的独立来源。然而, 欧盟法院最近的判例表明,除了版权指令中纳入的机制之外,基本权利无法证明对作者专有权的减损是正当的。最后,由于在法政策上引入合理使用似乎不大可能,可以说仅靠现行的例外和限制制度并不能解决人工智能背景下的不平衡问题。(4) 商业秘密保护会阻碍文本与数据挖掘(TDM)。文本与数据挖掘是收集大量可用于机器学习数据的重要方式。这类分析的重要性促使在《数字单一市场指令》中引入版权和数据库保护的例外——尽管适用范围过于狭窄。《数字单一市场指令》第 3 条第 1 款明确指出,研究组织和文化遗产机构为科学研究目的开展的文本与数据挖掘构成《信息社会指令》和《数据库指令》规定的权利的例外。《数字单一市场指令》第 7 条第 1 款还曾经过谨慎的起草,以避免通过合同方式覆盖这种例外,因为其规定与这些例外相反的合同条款不得实施。但是,版权立法机构并不承认权利持有人可以另外寻求商业秘密法的保护来进一步制止文本与数据挖掘。《数字单一市场指令》与《商业秘密指令》之间的关系没有通过这两项立法中的任何一项得以明确解决:虽然《商业秘密指令》仅表示“不应影响任何其他相关法律在其他领域的适用,包括知识产权”6,但《数字单一市场指令》没有阐明其与《商业秘密指令》的关系。这两个指令之间仍然可能存在交叉:如果对文本与数据挖掘分析主题文件的访问受到合同或技术措施的限制,那么通过文本与数据挖掘分析所收集的数据实际上可能构成《商业秘密指令》中的商业秘密。在这种情况下,即使访问受保护的文本或数据能够获得商业秘密持有人的授权,如果此类使用违反了限制使用商业秘密的合同义务,则其使用仍可能被视为侵害商业秘密。(5) 数据池协议能为机器学习模型训练所需知识产权保护数据集增加许可交易。除其他因素外,机器学习依赖于不同数据集的聚合,机器学习的品质随输入数据多样性而变化。高交易成本会阻碍机器学习输入的每个数据集的许可交易。数据池本身是一种有助于简化许可交易的可行方案。技术池的经验表明,数据池协议可以降低交易成本并促进创新, 尤其是促进后续创新。然而,谨慎考虑数据池并避免与技术池直接类比是恰当的。虽然交叉许可协议可能导致独家俱乐部,使弱小竞争者没有足够的数据与强大竞争者谈判,但把基于公平、合理和非歧视(FRAND)条款的许可概念转移到数据许可背景下,将产生需要解决的其他问题。与此同时,若采取激进的替代方案, 例如将补偿限制在不大于复制和提供数据所产生的边际成本,将忽略需要额外的报酬来激励数据品质投资这一事实。鉴于这类数据集构成开发和使用机器学习工具可能产生创新活动的主要输入,故数据集的可用性在促进创新方面发挥着重要作用。因此,如果足够的私人制序(private ordering) 行动不能满足数据池的需要,则可能需要政策进行干预。这又反过来要求研究数据持有者的不利因素并解决这些问题。此外,技术池的经验暗示需要解决潜在的竞争法问题。还应考虑某些权利持有人使用知识产权(版权或数据库特别权)是否会损害竞争。在制定《欧盟运作条约(TFEU)》第 101 条第 3 款规定的数据池豁免时,平衡数据池的促进竞争与反竞争效果可能是一项微妙的任务。最后, 鉴于数据汇集的目标是避免相关数据集使用不足,特别是避免专有权造成的问题,亦可斟酌引进数据共享中介机构 抑或创建部门数据空间这类替代方案是否优于数据池。在上述提案中,数据共享中介机构被设想为远离数据持有人和数据用户的数据信托,使其独立于任何具有显著市场支配力的竞争者。这样,通过促进此类数据信托管理的各个参与者的数据池,有可能缓解委员会《技术转让指南(Technology Transfer Guidelines)》中有关技术池反竞争问题的担忧。(6) 在培训数据受专有知识产权保护时, 现行法律没有充分考虑基于公共利益访问和使用这些数据的必要性。在可用于机器学习训练的数据块集合受版权或数据库特别权控制的范围内,现有的知识产权框架并未为这种公共利益数据集提供强制许可救济。访问私人持有数据可以以公共利益为由,例如公共卫生、保护环境或空间和城市规划等。在这种情况下,无论出于商业目的还是非营利目的,必须考虑政府和在相关领域工作的某些私营部门是否应有权访问并应被允许使用这类数据。关于提供强制许可以平衡激励与访问关切的讨论并无新意,其可回溯至 1992 年委员会提出的《数据库指令提案》。数据驱动经济中的新辩论曾就此主题展开,并在 2018 年发布的“数据库指令最终评估报告”中加以强调。其中的讨论特别考虑在数据库已发展为行业标准的情况下引入强制许可条款。引人注意的是,目前缺乏一项促进上述基于公共利益访问数据集的规定。(7) 当专有权保护人工智能输入对下游创新不可或缺时,提供禁令救济应受到限制。在欧洲知识产权法的判例中,处理涉嫌侵犯知识产权的禁令救济已成为常态。然而,在涉及技术市场时,欧洲法院(CJEU)依靠竞争法中滥用市场支配地位的概念来管控禁令的可用性。鉴于经济的持续数据化,数据的自由流动有利于持续创新。此外,由于数据的非竞争性,授予禁令救济会加剧基于专有知识产权或商业秘密保护的数据集保护的专有性。个别情况下在版权或数据库特别保护中存在的法律不确定性还增加了申请禁令救济对下游创新产生不利影响的可能性。在考虑数据市场特征的同时,似乎可以采用一种类似于美国最高法院在eBay 案中限制禁令救济(系知识产权法的一部分)的做法。因此,在从财产规则转向责任法的过程中,有必要探讨限制禁令的其他法律原则,例如滥用知识产权原则。(8) 对人工智能培训提供版权作品保护可能会侵犯作品完整性权。欧盟版权法并未对精神权利进行协调。以《伯尔尼公约》第 6 条为共同参考,作者有权主张作品的作者身份(署名)并反对任何歪曲、毁损或其他可能损害其荣誉或声誉(完整性)的修改或贬损行为。这两项权利至少须维持到经济权期限届满,且欧盟成员国可能会承认额外的精神权利。此外,调整改编和创造性改进的创作的经济权与精神上的完整权之间有着明确联系。但是,前者可以转让,后者不可, 这可能会导致人工智能训练作品许可证审核上的法律不确定性。因此,完整权可能会限制人工智能输出的训练和创作,特别是限制受保护作品的处理。作品数字化的版权并无新意,且可不经作者许可进行,比如,若其预期用途符合版权法规定的例外。然而,人工智能系统的处理可能完全有别于单纯的数字化。例如,一部小说的作者可能不希望其作品被人工智能系统处理,即使这种使用并不意味着作品本身的交流,该处理仍有可能被其视为对作品的贬损。在这种情况下,反对对作品行使任何修改、歪曲、毁损或其他损害的权利可能变得特别重要, 并且可能需要在欧盟层面引入例外或限制。该问题在实践中的潜在出现度取决于机器学习模型训练所需中间步骤的多少。因此,用于机器学习的受保护作品是否会损害作者合法利益的问题亟待深入讨论。(9) 知识产权框架必须系统地与竞争法构建的特定部门或其他当前和未来的额外知识产权数据访问制度相匹配。基于现行法(例如竞争法)和潜在的新的(比如特定部门的)拟制法依据形成的数据访问权在当前有关监管数字经济和充分发挥其创新潜力的讨论中起着关键作用。这种访问制度必须系统地与现行知识产权保持一致,涵盖各自数据的某些方面,以实现法律秩序的连贯性。这种一致性既可发生在访问制度领域(规定其优先于他人包括知识产权在内的权利),亦可出现在其他保护制度领域(规定该法的其他部分对数据访问予以规定时,其规则不予适用)。如果缺少这种明确规则,也可以依靠公认的法定解释原则达到同样结果。无论如何都欢迎采取一种整体的、面向竞争的监管办法来协调访问利益与知识产权保护之间的关系,以平衡排他性需求和访问需求。(10) 根据欧盟《商业秘密指令》,利用盗用数据开发的机器学习模型归类为会对福利产生负面影响的侵权商品。根据《商业秘密指令》第 4 条第 5 款,所谓“侵权商品”的商业化被视为非法使用商业秘密。“侵权商品”被定义为“其设计、特性、功能、生产工艺等从非法获取的商业秘密中明显受益的商品”。由于数据是机器学习过程中的高价值元素,故借助非法访问或非法使用的数据开发的机器学习模型可能落入侵权商品的范畴。然而,从福利角度看,这种结果的可取性令人生疑,因为它阻碍了人工智能工具和应用的开发,即使机器学习模型的商业化并不承担披露商业秘密保护对象(即训练数据)的风险。日本提供了一个如何规避这类障碍的实例。其对数据采用了一项特殊制度,政府颁布的“通过有限访问分享数据指南”明确排除了使用盗用数据开发新学习模型这种结果。(11) 基于非披露协议(NDA)商业交易而广泛共享的数据是否应处于保密状态。激励数据共享是否有必要将广泛共享数据纳入商业秘密保护范围。“广泛共享数据”是指以非排他性方式传播的数据,但其使用和进一步披露仍受合同限制。依据《商业秘密指令》,目前尚无法确定这些最初适用商业秘密保护的共享数据是否应被视为因其商业化而丧失秘密状态。该法律的不确定性源于法院在解释《商业秘密指令》第 2 条第 1 款 a 项规定的秘密要件时缺乏指导,其可能不利于数据市场的兴起。此外,数据持有人提供额外保护的潜在社会效益,以补充合同法赋予的保护,通过市场激励数据共享。(12) 对受知识产权保护的机器学习数据集聚合的潜在合同和其他限制,以及此类限制是否应受法律约束。尚须注意的是,由于数据集基于限制性条款(如何将许可的数据集与其他来源的数据集组合)获得许可,因此有碍于数据集的聚合。创建专有数据孤岛,无论是通过事实控制还是对物的保护,都可能削弱相关数据的继续使用。在健康数据领域可以找到体现这种数据孤岛的范例,其开发新型健康产品或服务需要聚合多个来源的不同数据集。各个实体限制其专有数据集与其他来源数据集聚合能力的实例会大大限制利用开发新的依赖于不同数据集聚合的健康产品和服务收益。合同限制、知识产权或数据保护规则可能限制数据的使用和分配以及与其他数据集的汇集。在这种情况下,尤其难以确定有关预先存在的数据集的这类限制和权利如何部分或全部扩展到所聚合数据中去。仍需研究预先存在的数据集中的权利或对数据集聚合的限制是否会对开发尚待研究的新机器学习模型产生重大约束。在这方面,分析数据集许可行业实践的案例并对不同来源数据集聚合采取相应的限制可能会对我们有所启迪。如果问题确实存在,则应审查是否需要引入具体的法律规定,禁止对受版权或数据库特别权保护的数据集聚合加以限制。(13) 开源软件许可模式是否有助于促进访问和使用受知识产权保护的数据集。开放数据许可有助于实现超出欧盟《公共部门信息指令》(Public Sector Information Directive)设想的开放数据运动的潜能。这种开放数据许可不仅限于开放政府数据;其他开放数据许可的发布者主要有知识共享(Creative Commons)、 Linux 基 金 会、 开 放 数 据 共 享(Open Data Commons)以及极少的定制许可。例如,开放数据共享颁发的开放数据许可证可以大致分为公共领域许可、归属许可和类共享许可。类似地,Linux 基金会根据其社区数据许可协议颁发共享许可和宽松式许可,共享许可体现了数据许可中的著佐权(Copyleft)原则,宽松式许可类似于宽松式开源许可。相关问题是,开放数据许可框架是否能够访问和使用知识产权保护所涵盖的数据集,并鼓励在营利性商业环境中从事后续的开放数据行为。如同对应的开放源代码软件许可,开放数据许可的激增回避了何谓特定许可证选择框架的问题,即在何种情况下选择何种许可证选择框架是可取的。在一定的环境中获得最合适的许可证并非易事,考虑到诸如数据保护和必须始终避免许可证不匹配等其他因素,导致组件许可证与最终产品许可证之间可能出现兼容性问题。因此,在确定开放数据许可证选择的标准方面尚有研究空间,亦需探寻应对上述潜在挑战的路径。(14) 就人工智能算法和模型主张的发明,专利审查实践中应适当判定因缺乏技术特性而排除其可专利性。算法被定义为如何实现一个过程的指令集。算法某种程度上被编码为没有更多技术效果的软件程序而被排除在可专利主题之外。人工智能模型是数字函数,也被排除可专利性。因此, 人工智能算法和 / 或模型只能作为一项发明中的特定技术应用例的元素来申请专利。恰当地适用技术特征要件,意味着在一项独立权利要求中应包括赋予所需技术特征的具体技术应用, 且专利保护范围限于该具体应用。对包含人工智能元素的发明适当运用排除可专利性将确保基本构成模块不受排他性的限制,并且可以用于开发基于人工智能的应用而不受限制。(15) 将人工神经网络普遍假设为“黑匣子”并不意味着不能充分披露包括机器学习要素的发明。一项发明得由一位技术人员以其可复制的方式予以披露或公开,该技术人员对这种复制并不承担重大责任或义务。人工神经网络(artificial neural networks,ANN)模型通常被称为“黑匣子”,这意味着某些情况下其计算结果具有有限的可解释性。首先,这种特征化不应该泛化到所有人工神经网络模型中,因为模型的复杂程度差异巨大。此外,一个模型的可解释性取决于从何人的角度来看待它——训练模型的人认为训练过程不是一个“黑匣子”。训练模型“预测”的相关性引发的解释性问题涉及到对数据点之间因果关系的理解。然而,该问题既不表明人类对模型训练和应用失控,也不表明模型具有十分重大的不可再现性。多种因素可以说明人工神经网络模型的有限可解释性,其中包括非线性、网络内数据表示的复杂性以及对神经训练发现的统计相关性的因果关系缺乏理解。并非所有因素皆是满足充分披露要件的重要因素。例如,如果专利权利要求可能指向识别数据中异常模式的方法, 则这种异常现象的成因不会构成充分披露的重要因素。重要的是,人工神经网络模型的有限可解释性并不意味着它不能被一直再现。重现模型通常须提供训练过程的详细规范,包括算法和数据选择标准。在应用随机化的场合,如果披露了所用的随机数生成器和“种子”,则可实现模型的再现性。就此而言,人工神经网络模型无法与生物技术发明相比,后者由于不可控和不可预测的因素而不可重现。然而,考虑到专利披露足以使技术人员再现所要求保护发明的技术要领,则可能不必精确再现人工神经网络模型。稳健的机器学习算法每次执行均会提供一致的结果,即用这种算法训练的每个模型都能达到相当的精度,即使各个权重可能因随机化而略有差异。鉴于人工神经网络模型是由数值(权重)组成的非线性函数,故它可以构成“混合”发明的一部分, 也可能或不可能增加发明主张的技术效果。按照这种观点,如果技术人员能够训练在整个发明中执行其功能的模型,则能满足充分披露的要求。在任何情况下,解决“黑匣子发明”的专利问题时,应适当运用现有的充分披露要求和权利要求的清晰性。(16) 算法、模型和权重足以受到诸如商业秘密、反不正当竞争法、合同法和技术措施等知识产权制度以外的法律保护,但其不应以损害整体福利的方式应用或误用。提供正式知识产权只是通过建立人为排他性来弥补公共产品市场失灵的一种手段。如果可以提供一定程度的排他性或通过其他手段保护投资,缺乏知识产权保护不会损害整体福利。这类其他手段包括侵权行为法、反不正当竞争法以及合同和技术保护措施等“私人制序”机制。算法、模型和权重等替代制度似乎能普遍有效地应对潜在的市场失灵。然而,当人们依赖这些工具时,务必以一种不因过度保护而导致功能失调的方式应用之。尤其不应否决或者规避知识产权框架关于不保护某些主题的慎重决定。《软件指令》(Software Directive)中‘计算机程序’的概念。欧盟《软件指令》(Software Directive)没有界定“计算机程序”。技术上看,计算机程序是一组用编程语言编写的可由计算机执行一项任务的指令。欧盟法院在“C-393/09,Bezpečnostní softwarová asociace [2010] ECLI:EU:C:2010:816”一案判决中支持该观点, 表明当复制计算机程序将引起计算机程序本身复制,从而能使计算机执行其任务时,即可为计算机程序提供保护。此外,根据成员国立法和判例以及国际版权公约,只有计算机程序的表达受到保护,作为程序任何构成要素的思想和原则不受保护。因此,如《软件指令》所示,“就逻辑、算法和包含思想和原则的编程语言而言,这些思想和原则不受本指令保护(序言 11)。”这符合保护计算机程序的功能最终会导致垄断思想,进而阻碍创新的基本假设。 然而,基于学习模式输出的机器学习模型一定程度上可以以编码形式表达,进而作为计算机程序保护。不过这在适用计算机程序保护要件时可能遇到麻烦。就原创性而言,尽管《软件指令》中明确了“作者自身的智力创造”标准, 欧盟法院也进一步澄清了这一概念,但其适用取决于成员国法院。关于作者,《软件指令》允许依据成员国的法律规定,计算机程序的版权属于自然人和法人(第 2 条)。欧盟并未统一界定关于作者的法律规则。根据《伯尔尼公约》, 作者需要对作品的创作计划进行构思和实施。因此,根据机器学习模型的训练方式及其可能需要的人工输入类型,即使机器学习模型可以以编码形式表达且可由计算机执行,也可能很难甚至不可能确定版权保护时机。(18) 简单或线性机器学习模型不符合数据库特别保护要件,但复杂的动态机器学习模型尚需不同的评估,可与模型相分离的权重不适于数据库特殊保护。简单或线性机器学习模型不满足数据库的要求。欧盟法院判例法泛定了《数据库指令》第 1 条第 2 款所述的数据库范围,要求构成数据库的机器学习模型由“具有自主信息价值的可单独访问独立元素”组成。复杂的动态机器学习模型可能依赖于这种架构,其通常由程序员在训练过程之前建立,并由权重连接的神经元组成。因此,每个神经元都是一个将输入(上游权重数值)转换为输出(下游权重数值) 的数学函数。更复杂的动态机器学习模型(例如人工神经网络)由神经元中包含的所有函数之和组成,这些嵌入机器学习算法中的函数可以单独访问,具有独立的信息价值。然而,即使人们怀疑是否仍然要用机器学习模型中不同元素注册表来满足数据库要求,但简单的线性机器学习模型(例如线性回归)似乎并不由可单独访问的元素组成。机器学习模型是新数据的直接输出和创建。根据《数据库指令》第 7 条第 1 款,该过程中的任何投资,即数据科学家的培训数据、标签、计算能力和专有技术,均不能视为实质性投资。这并不排除对现有机器学习模型提供符合条件的后续投资所产生的数据库特别权——只要它们不构成新的数据库(见下文第 23 个问题)。由于有些机器学习模型呈动态,可能会造成更多困难,甚至可能引发关于在这些情况下是否需要授予特别权保护的讨论。另须考虑的因素是,例如,德国法院已经淡化了欧盟法院保护数据的创建与只保护数据库之间进行区别 ,这可能再次导致对这些案例的不同评估,从而强调应就现有数据库特别保护法律框架的未来采取立法行动(见上文第 1 个和第 2 个问题)。权重似乎不受数据库特别制度保护。欧盟法院虽然在 Esterbauer 裁决 中对数据库的独立元素实施了“足够的信息价值”的判断标准, 但权重并不符合该标准。权重一旦脱离机器学习模型便丧失信息价值。权重允许推论每个机器学习模型的品质,对损失函数起支配作用, 且对改进每个机器学习模型必不可少。因此, 任何没有关联权重的机器学习模型对于潜在的搭便车者毫无价值。反之却非亦然。故权重缺乏独立的信息价值,不在数据库保护范围。(19) 尽管人工智能领域出现大量学术出版物,但专利制度的披露功能仍应保持其相关性和目的性。充分披露要求保障了专利法增加技术知识存量的基本目标。鉴于人工智能领域产出大量的学术成果,人们会质疑人工智能专利对技术知识存量究竟有何贡献。值得强调的是,数学模型和计算机程序也被排除在可专利性之外,它们通常会构成技术和非技术要素相结合的“混合”发明的一部分。披露此类发明的专利对学术出版物的贡献原则上应存在于将上游研究结果转化为实际技术用例的知识中。(20) 在人工智能技术类似于研究工具的情况下,相关知识产权框架是否应提供强制许可。人工智能通常被表征为“通用”和“赋能”技术,因为它能够促进下游应用的开发并开辟新的技术和市场机会。这种特征解释了为何机器学习技术可以广泛用于科技和工程领域。机器学习方法因此可与研究工具相媲美。机器学习和研究工具均可用作创新活动的投入。由于担心排他性会对后续创新产生“扼杀效应”,因此根据知识产权法律和政策将排他权授予这类多用途的投入一直备受争议。这些问题的产生主要是因为知识产权持有人既不能充分发挥“前景广阔”发明的潜力,也不能有效地配置开发“有发展前景”技术的使用权。瑞士等一些司法管辖区就此规定了专门针对生物技术研究工具的强制许可证。尚需进一步考查机器学习技术是否会出现类似问题。机器学习模型表面上似乎不像分子研究工具和资源(比如细胞系或 DNA 库)那么独特。原则上可以设计一种执行精度水平相当的替代计算模型。对确保竞争优势起关键作用的是训练数据的可用性和可访问性。(三)人工智能辅助的及其生成的输出物能否受知识产权保护?(21) 虽然人工智能“自主”生成的输出物不符合版权保护要件,但该输出若涉及人类创造性,则借助人工智能工具生成的“作品”能否达到保护阈值高度仍依赖于个案分析。版权被认为是一个以人类为中心的固有法域。有鉴于此,在当前技术状态内亦不存在(完全)“自主的”人工智能,从教义学角度看,关键问题是在使用人工智能工具创建看似作品的无形物时,需要确定人类引导的确切阈值。从实践角度看,鉴于人工智能应用领域极其多样化(从翻译软件到计算机生成的“绘画”),是否满足该阈值似乎高度依赖于个案。应该指出,现行版权法根据投资保护理论而非人类创造性规定了相关权的保护,比如录音制品受到欧盟《出租和出借权指令》(Rental and Lending Rights Directive )和《信息社会指令》保护。虽然人工智能生成的输出物某些情况下可能落入此类保护的现行法范围,但人们会从增加福利的角度质疑这种保护的可行性。(22) 根据目前的知识现状,为人工智能生成的输出物引入新型保护制度(例如新型相关权)并不正当。知识产权保护制度传统上存在两种正当性理论:一是依赖于创作者人格和努力的道义论;二是依赖于弥补公共产品市场失灵的(经济) 功利主义论。前者无关于表征人类创作者投入缺乏或不足的情势。后者需要发现市场失灵。主张引进新型权利者通常应当承担论证其正当性理论的责任。上述两种理论中,至今没有一种被证实可以使知识产权制度合理扩展到没有人类创造性投入的人工智能的创作中去。(23) 如果人工智能应用生成的数据集受到特别的数据库保护,则对动态数据集提供“永久”保护会产生反竞争效果,很可能阻碍有效的数据再利用。在如此快速创新循环的动态环境中,15 年的保护期过长。数据库特别保护制度需要调整,或者甚至最好完全废除。实践中对推断数据集提供数据库特别保护面临一个早已存在的问题,即如何看待动态数据库。如上文第 18 个问题所述,这不仅可能影响到是否首先存在一个数据库以及投资是否可能引发特别保护制度,而且已经进一步影响到数据库制度本身的可行性。由于机器学习可能是一个不断推断新数据的动态过程,问题在于该过程是否产生一个实质性变化的数据库,从而有必要将其视为符合《数据库指令》第 10 条第 3 款规定的适于特别保护的新数据库。目前尚不清楚在新的推断数据背景下实质性阈值, 这种阈值通常是最小阈值,狭义地解释为也包含数据的更新。因此,一组刚“更新”的推断数据集,即在学习过程中包含不同数据点之间更精确的相关性,将构成一个新数据库。然而, 这似乎并不合理,因为在这些情况下赋予新数据库以特别权会产生排斥效应,限制后续创新。授予 15 年保护期更是如此,如果机器学习过程不断创建新的数据库,则该期限将永远延长。如此长的保护期并未反映这样一个事实:数字市场具有创新周期较快的特点,商业化机器学习模型具有边际成本较低的特点。这减少了数据库生产者的投资保护利益,故至少需要对保护期进行全新的彻底评估。亟待解决关于创建新数据库的法律不确定性问题。这可以通过将数据库特别权转换为注册权予以实现,此时关于实质性阈值的举证责任在注册方。(人为)引入更多的交易成本不仅会降低法律的不确定性,很可能会消除无处不在的特别权,后者尤其在单一来源数据库中产生了垄断效应。这种做法还有其他缺陷,因此,废除数据库特别保护似乎是一个更佳选择(见上文第 1 个、第 2 个和第 18 个问题)。(24) 目前将人工智能用作一种工具并未对专利法中的发明人概念形成规范性挑战。主张人工智能“自主”产生发明的说法备受争议。然而,迄今为止提出的所谓“人工智能生成物”的发明例证形成诸多典型案例,例如计算建模应用于具有必要特性和功能的物体的设计和工程中,无论其是分子结构还是电子、机械或光学装置。根据现有技术水平,人工智能以自主方式产生发明,即人类只论最终目标而不说明如何实现之的论点难以自圆其说。几十年来,包括人工神经网络和进化算法的人工智能技术已被应用于解决技术设计和工程中的优化问题。然而,在研发中使用此类技术仍然很大程度上依赖于人类设计师和工程师将其应用于棘手难题的决策。这包括用计算建模来解决问题的分析和形式化表示、输入数据选择、目标函数的定义(即人工神经网络中的“成本函数”和进化算法中的“适应度函数”)、新算法设计或现有算法调整、计算结果解释等。随机化(例如人工神经网络权重的初始随机化)不能用于机器学习,其被视为人工智能系统“自决行为”的标志,因为它是通过特定计算机程序(所谓的“随机数生成器”)实现的。只要人类构想出整个计算过程,并设定执行指令,计算机就是协助人类发明者的工具。与其他开发发明过程应用的研究工具或技术相比,这种计算机提供的协助对于发明人权利配置不会更显重要。目前尚不清楚,未来的技术可以使人工智能参与到何种程度,欢迎就此与人工智能科技界进行更广泛的对话。(25) 当人工神经网络常用于开发发明过程时,可能对评估发明步骤构成挑战。评估发明步骤的目的是为了区分超出本领域普通技术人员的能力范围。一项发明的显而易见性是从一位掌握标准工具和技术的技术人员角度来评估的。机器学习技术已在各种技术和工程领域应用数十年,肯定影响实际从业者的知识和技能水平以及解决问题的能力。鉴于名义上的技术人员可以由一个团队代表,且人工智能视为一项广泛适用于各种技术领域的“通用”技术,可以想象,一位技术人员某些情况下可以由一个跨学科团队(含人工智能领域的专业人员和数据科学家)来代表。但当人工智能研究呈现动态特性时,可能对“普通”知识和技能水平的界定形成挑战。根据欧洲专利局目前采用的“问题 - 求解” 法,关键问题是技术人员是否会提出有别于系争发明所主张的技术特征。虽然技术人员应用人工神经网络或其他计算建模技术达到所主张特征或许是一个合理假设,但如何客观地评估这种假设似乎并不简单。首先,人们很难知道技术人员可以使用和访问哪些训练数据,以及将选择哪些特定数据集以及其内的其他输入。此外,由于人工神经网络可以用于发明活动的某个环节,专利审查员从设定机器学习过程获得人工神经网络训练的即时输出(即数值)到所主张的发明技术特征来重建整个动作序列时, 可能遭遇挑战。然而,这并非意味着普通技术人员或跨学科从业团队无法解决系争发明问题。当机器学习成为解决技术问题的广泛方法时, 必须详细审查当前的发明步骤评估测试多大程度上可以实现其目的。这种必要性在于,仅有机器学习技术的存在并不意味着可以解决任何技术问题——专业知识水平起着决定性作用。因此,发明步骤要求的目标——即区分知识和技能高于“普通”水平的解决方案——仍然密切相关。(26) 目前将人工智能用作工具并不对设计法下设计人的权利配置构成实际问题,但同时会从理论上引发重新评估人类设计师的作用。设计保护被广泛认为是版权与专利混搭的制度。一般来说,目前似乎在专利领域(上文第 24 个问题)使用人工智能工具不会对人类设计者的权利配置构成挑战。此外,一项设计可能产生于所需的人力投入不足,却要面对承认一位“设计师”的窘境,但这种问题现实中似乎不会出现:有别于版权的设计法的保护标准非常客观,依赖于新颖性。任何人均可在知识产权局注册设计,如果不存在真正的“设计者”,则不会存在基于指定权利要求所形成的人格权。然而,从法律理论角度看,人工智能的勃兴可能会使人们有理由重新评估人类(应该) 在设计法正当性论证中扮演的角色。一方面, 设计法如同专利法一样深深扎根于商业和经济环境中。另一方面,鉴于设计法依赖于影响人类情感的美学以及开发新设计涉及的创造性选择,故设计法与版权法中的人类中心主义思想有关。在任何情况下,在设计过程中使用人工智能为法律和政策分析提供信息时,需要进一步提出实证见解。