联盛知识产权周 | 浅析人工智能大数据领域专利申请中的数据合规问题
世界知识产权日
World Intellectual Property Day
2024年4月26日
April 26, 2024
知识产权,
是应对我们共同面临的全球挑战的核心,是增长和发展的强大催化剂。
联盛律师助力2024年世界知识产权日,
特开设联盛知识产权法律专栏,
我们的知产团队将和大家共同探讨知识产权对建设我们共同未来至关重要的创新性和创造性解决方案随着大数据、人工智能等技术的快速发展,数据成为了企业和个人宝贵的资源。
与此同时,数据安全和隐私保护问题也成为了人们关注的焦点。《专利法》第五条规定对违反法律、社会公德或者妨害公共利益的发明创造不授予专利权,因此涉及数据采集的相关专利申请也需要遵守相关法律的规定,不违反社会公德或者妨害公共利益,否则将属于《专利法》第五条规定的情形而不能授予专利权。
随着国家针对个人信息、数据安全、网络安全等的相继立法,数据处理的合规审查也已经延伸到专利申请的审查工作中了,涉及人工智能大数据领域的专利申请是否违反《网络安全法》、《数据安全法》以及《个人信息保护法》的规定也成为专利申请实务中需要重视的新问题。
本文基于三件涉及数据采集对象和采集手段的专利申请案例,尝试探讨其中的数据合规性考量。
一、数据采集相关专利申请的案例分析
案例一
近年来随着互联网技术的发展,游客在旅游过程中在互联网上留下大量旅游相关数据,这些旅游相关数据可以被用来进行旅游营销策划、游客数量预测、路线规划、景点评价等分析研究,进一步给游客提供更好的旅游服务和开发更好的旅游产品。现有大数据技术虽然信息来源较为广泛,但主要面临两方面难题:一是数据收集集中在静态信息,缺乏动态提取;二是非结构数据的结构化处理费时费力。
2.技术方案一种游客行为数据提取方法,包括:
获取旅游景区签到数据,进行结构化处理,得到签到时空数据库;从旅游网站获取第一游记样本,对其中游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于标记方法,形成初步解析模块;获取第二游记样本,运行初步解析模块得到第二游记样本的解析旅游时空路径,基于解析旅游时空路径对初步解析模块进行完善,得到最终解析模块;将最终解析模块应用在预设时间窗口和预设目的地范围的游记样本中,得到游记时空数据库;基于所述签到时空数据库和所述游记时空数据库,得到可视化的游客时空行为路径图。为后续的旅游领域的专利分析提供结构化的数据。
3.案例分析在案例一的技术方案中,对于旅游景区签到数据、旅游网站游记数据的采集,使用Python获取目标区域内的旅游景区签到数据,包括与该景区签到 ID相关的用户ID、签到时间、签到地点以及签到内容,并对所有用户ID对应的个人信息进行收集,包括用户性别、用户客源地、出生年月日以及毕业院校信息等。
根据《个人信息保护法》第二条、第四条以及第十条的规定,自然人的个人信息受本法的保护。第二条,自然人的个人信息受法律保护,任何组织、个人不得侵害自然人的个人信息权益。第四条,个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。第十条,任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动。
根据上述法律条文,在判断案例一申请文件中的数据采集是否符合《专利法》第五条之规定时,首先应区分哪些信息属于法律保护的个人信息,事实上,并非所有与个人相关的信息都属于法律保护的个人信息,即,不能用于识别特定自然人的信息不属于个人信息;其次,应判断在采集个人信息时是否合法、正当、必要范围,并非一旦涉及收集、处理个人信息就必然违反上述法律规定。
案例一涉及对包括用户性别、用户客源地、出生年月日、毕业院校、旅游景区签到信息、签到时间、签到地点以及签到内容进行收集,其中部分属于法律保护的个人信息。这些数据的采集是以公开的方式获取的个人信息数据,其关注点在于获取到个体在不同景点间的动态的旅游信息数据后,补充其他数据收集方法中缺乏对个体主观信息的关注,实现时空路径的精细化、具体化,并使用这些数据进行旅游营销策划、游客数量预测、路线规划、景点评价等分析研究,进一步给游客提供更好的旅游服务和开发更好的旅游产品。显然,案例一中的数据采集不是为了非法搜集、使用、贩卖个人信息。并且,根据申请文件中记载可知,该数据是提取自例如马蜂窝网、携程网、去哪儿网、穷游网上等权威攻略网站的文本内容及图片链接,属于个人主动公开的信息,因此应当认为被采集人员默许同意了对其个人信息的采集,未违反《个人信息保护法》第二条、第四条以及第十条的规定。
根据上述分析,案例一的技术方案中采集的数据对象并未违反相关法律,且该方案本身并未违反社会公德,也不会妨害公利益,不属于《专利法》第五条规定的不授予专利权的情形。至于该技术方案中使用Python自动提取各攻略网站的数据是否侵犯网站运营者的数据权益构成不正当竞争,则要根据各网站对于其数据的保护是否设置了反爬措施或破解服务器的防抓取措施来判断。
案例二
1.背景技术
网络支付在现代生活中被广泛应用,为人们提供了便捷快速的支付方式。然而,网络支付也面临着诸多欺诈风险,比如虚假交易、盗用身份信息、账户被黑客攻击等等。为了提高网络支付系统的安全性和可信度,需要采取一系列措施来预防和遏制欺诈风险。现有的网络支付下克服反欺诈技术利用数据挖掘、机器学习和数据分析等技术,从海量的支付数据中发掘模式和规律,并识别欺诈行为。然而,反欺诈技术并不是万能的,尤其当欺诈手法日益复杂多变的时候,仅靠技术手段来进行预防和识别欺诈行为已不足够,从而对进行网络支付下克服反欺诈的可视化对比时的精确度较低。
2.技术方案一种基于网络支付下克服反欺诈的可视化对比分析方法及装置,包括:根据历史支付数据构建反欺诈决策树模型,利用反欺诈决策树模型对历史支付测试数据进行反欺诈决策;根据支付行为置信度及置信度阈值生成历史支付行为可视图;将基本属性数据及网络支付数据进行融合;提取多源融合数据的网络支付特征,通过反欺诈决策树模型对网络支付特征进行欺诈决策,根据目标支付行为置信度及置信度阈值生成目标行为可视图;对目标行为可视图进行优化,根据历史支付行为可视图及目标优化行为可视图对目标用户的网络支付反欺诈进行对比分析。本发明可以提高网络支付下克服反欺诈的可视化对比精确度。
3.案例分析根据案例二申请文件的记载,获取历史支付数据构建反欺诈决策树模型,所述的历史支付数据包括目标用户在网络交易过程中的支付金额、支付时间、支付方式、支付账户、支付地址、收款方等;获取方法是使用具有数据抓取功能的计算机语句如Java语句、Python语句等从预先存储的数据库、区块链等存储区域获取。参照案例一的分析,案例二中获取的这些数据虽属于法律保护的个人信息,但该技术方案获取历史支付数据的目的在于判别、区分异常交易行为及正常交易行为,构建反欺诈决策树模型,从而辅助判断支付交易行为是否存在诈骗风险,显然不是以非法获取、使用、贩卖个人信息为目的;同时该方案获取数据的方法是使用具有数据抓取功能的计算机语句如Java语句、Python语句等从预先存储的数据库、区块链等存储区域获取,并未侵犯他人的数据权益,未构成不正当竞争。因此,案例二的方案并未违反《个人信息保护法》的规定,且该方案本身并未违反社会公德,也不会妨害公利益,案例二的方案不属于《专利法》第五条规定的不授予专利权的情形。
案例三
1.背景技术
互联网信息技术的高速发展促使人类社会的数据种类和规模以前所未有的速度增长,互联网大数据时代给予我们的是生活的便利以及海量数据爆炸式的出现在网络中,海量的数据背后隐藏着巨大价值。数据零散地分布在各个网站中,网站上的信息数量庞大且复杂,网站均不具备历史数据的储存功能,如何从多样化数据中准确收集到有效信息,并进一步在海量数据中挖掘蕴藏的重要价值,是当前首要解决的问题。
2.技术方案一种基于python语言的自动爬取网页数据的方法,包括:包括如下步骤:搭建python语言环境;选取目标网址,根据数据结果,确定目标网站的数据库储存格式,并获取目标网站的headers和response;确定目标网站的存储指定数据库,构建爬取目标网站的模型;在运行环境处于正常联网状态,运行该模型,进行数据爬取;根据数据响应状态,调整目标网站数据;对成功响应的网页数据进行清洗整理,删除或替代无效值和缺失值;输出数据结果并保存。本发明可以实现准确、快速、实时自动获取互联网上的海量数据。
3.案例分析案例三涉及网络数据的获取技术。《网络安全法》第二十七条规定,任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;《数据安全法》第三十二条规定,任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。同时,《刑法》、《计算机信息系统安全保护条例》和公安部发布的《计算机信息网络国际联网安全保护管理办法》等法律法规及规范性文件均对非法侵入计算机信息系统、非法获取计算机信息系统数据等违法犯罪行为作出明确规定。
因此,判断案例三的技术方案是否属于《专利法》第五条规定的不授予专利权的情形,应着眼于判断该技术方案是否以非法侵入他人网络为手段获得数据,或采用非法的数据收集手段干扰他人网络的正常功能,产生了危害国家安全、公共利益的后果,或采用技术手段妨碍公众对网络的正常使用,损害网络运营者的合法权益。
案例三的方案是获取目标网站的结构、布局和内容,并进一步获得网站的URL结构、页面关系、数据呈现方式及反爬虫机制,其所构建的爬取模型是绕过或突破数据所有方设置的IP限制、验证码及请求频率等限制,采用代理IP、随机延迟及模拟用户技术绕过上述反爬虫机制去爬取数据,即,该方案是对网站服务器设置的防护策略进行了技术性的规避,并未得到数据所有方的授权,违背了数据所有方的意愿。因此该方案违反了相关法律规定,属于《专利法》第五条规定的由于违反法律而不授予专利权的情况。二、人工智能大数据领域专利申请中涉数据合规的建议
目前,在专利申请中可能涉及到数据合规的技术方案,其通常与个人信息的获取及处理相关。申请人可以从以下思路判断收集的数据对象和收集数据的手段是否违反相关法律规定,从而判断是否符合《专利法》第五条之规定:
首先,确认相关的法律禁止的行为有哪些;
其次,判断发明创造本身是否属于法律所禁止的,抑或是仅发明创造的实施为法律所禁止。即,若发明创造本身属于法律所禁止的,则不能被授予专利权;若发明创造性本身不属于法律所禁止的,仅其实施为法律所禁止,则仍然属于可授权客体;
最后,若发明创造本身属于法律所禁止的,确认能否修改或调整为不属于法律所禁止的,以满足授权客体要求。
1. 采集的数据对象通常情况下,出现以下情形,则会违反相关法律的规定:
(1)如果收集的数据是个人信息,且不属于《民法典》第一千零三十六条及《个人信息保护法》第十三条规定的处理个人信息的免责事由,则属于对个人信息的处理;如未取得个人同意,则可能违反《民法典》第一千零三十五条、《个人信息保护法》第二十五条的相关规定。
(2)如果收集的数据对象是他人的商业秘密,并且是以电子侵入或者其他不正当手段获取的,则可能违反《反不正当竞争法》第九条的规定。
(3)如果收集的数据对象是未经著作权人许可的作品,并且采用故意避开或者破坏技术措施等非法手段,将数据对象用于收集存储或者通过信息网络向公众传播,则可能违反《著作权法》第五条、第十条之十二款,以及《信息网络传播权保护条例》第四条之规定。
但是,如果专利申请的技术方案的目的在于改进数据处理技术本身,其不是明显以非法获取、使用、贩卖、传播个人信息、商业秘密、著作权作品为目的,即仅仅是该方案被滥用而导致违反法律的,则属于仅其实施为法律所禁止的发明创造,不必质疑其是否违反《专利法》第五条的规定。
2. 采集数据的手段通常情况下,出现以下情形,则会违反相关法律的规定:
(1)非法侵入他人网络获取网络数据,例如未得到数据所有方的授权、违反网站设置的反爬声明、绕过网站设置的反爬技术措施等。
(2)干扰他人网络正常功能,例如干扰了网络的正常访问功能。
以上技术手段违反《网络安全法》第二十七条、《刑法》第二百八十五条之规定。在专利申请过程中,申请人应针对具体技术方案从多个角度考虑其是否违反了相关法律规定。三、数据合规引发专利申请的思考笔者在撰写本文期间,通过检索已公开的专利申请,发现不少申请人已经注意到了数据合规方面的要求。基于前述的分析,引发我们对专利申请实务中数据合规的两点思考:
1. 当技术方案确定需要使用个人信息时,如何撰写才能符合法律规定?
2. 涉及到获取个人信息的技术手段,如何披露才能符合法律规定?
针对问题1,基于前面的分析,笔者认为,对于涉及个人信息的技术方案,在撰写专利申请说明书时,应确保处理个人信息的行为具备合法性。
针对问题2,专利申请应当明确排除违法行为,故,当权利要求所保护的技术方案涉及处理个人信息时,需要声明个人信息获取的合法性,以排除违法行为。
基于此,在具体撰写专利申请文件时,可以适当引入以下声明,以确保合法性,例如:“本申请的用户信息的采集、使用等是符合相关法律规定,并且经过相关各方授权”;或“本申请中对各种数据的采集和获取,符合相关法律规定,经过数据提供方的授权。任何组织或者个人需要获取外部数据的,应当依法取得授权并确保数据安全,不得非法收集、 使用、加工、传输未经授权或未经保护的数据,不得非法买卖、提供或者公开未经授权或未经保护的数据。” 诸如此类。小结与展望
通常,人工智能算法的训练数据包含可用数据与特定领域数据,公开训练数据的缺点是说明书中披露的数据量可能相当大,且采集的数据对象以及采集数据的手段或可能违反法律法规。对此,有学者建议引进微生物发明审查相关规则:一项生物技术发明可能利用某些微生物生产有用的物质,就像人工智能发明可能利用经过训练的人工智能模型,根据输入数据作出有用的预测。对于微生物,有一个类似问题,即如何让公众获得这些微生物。1977年《布达佩斯条约》规定了生物材料存放制度,类似地,人工智能训练数据存放制度可使公众获得用于研究的专有数据,同时,保障申请人利益。
参考文献
[1]专利公开文本CN115577190B
[2]专利公开文本CN117291615B
[3]专利公开文本CN117093761A
[4]田丽娜,慈丽雁.浅议大数据领域专利审查中的数据合规审查规则. 专利代理. 2023(01).
[5]陈姗姗.深度解读专利申请中的数据合规问题.Vcan IP.2024.03.30
[6]姚叶.人工智能算法专利的技术、理论、问题与中国之应对[J]. 科技进步与对策, 2022, 39(16): 134-141.
背景资料链接
徐明慧
联盛律师事务所专职律师,法学硕士,药学学士。
专业领域:知识产权(包括企业知识产权管理咨询、专利复审与无效、专利检索与分析、海外专利布局与申请;专利、商标、著作权、商业秘密、不正当竟争等知识产权类纠纷处理),企业常年法律顾问。
全国统一热线:400-828-8528
官网:www.lexiance.cn总部:南京市鼓楼区北京西路69-2号(华东饭店西侧)
电话:(025)83286688/83286689/83286699
无锡:无锡市滨湖区隐秀路800号上海中心城开国际西塔12楼
电话:(0510)8888 0007
泰州:泰州市高新区海陵南路179号华诚大厦写字楼A塔21、22层
电话:(0523)86885330
江阴:江阴市长江路777号恒天东方广场1号楼22-23楼
电话:(0510)86289355
上海:上海市长宁区新华路街道东方明珠凯旋中心顶楼
电话:(021)58460986
南通:南通市人民中路219号尚东国际5号楼10层
电话:(0513)55085230
靖江:靖江市人民南路德禧隆商业街1号楼3楼
电话:(0523)84837133
宜兴:宜兴市解放东路886号东氿大厦20楼
电话:(0510)81738111
宿迁:宿迁市湖滨新区软件与服务外包产业园(保险小镇)知新楼5层
电话:(0527)82991660
淮安:淮安市清江浦区金融中心B5座8楼
电话:(0517)83807799
吉隆:西藏日喀则市吉隆县昌盛路
电话:(0892)8282580