中国专利界的“两弹一星”工程,自主专利数据库尚需攻克三大难题
没想到,一篇专利数据库的文章,激发了很多人的爱国情怀。
陆续收到一些读者甚至是行业老前辈的反馈,对于IncoPat专利数据库被外资收购,惋惜者有之,恨无力为国出力者有之。
但更多人开始了思考:中国到底需不需要建立一套能够被市场广泛接受的自主知识产权的专利数据库系统?
不为别的,就为国家在出现极端情况下,自主系统能够继续高效的支持我们国家的科技创新,让我们的高校、科研机构、企业不会因为外国的制裁、信息切断而在创新上变成“聋子”和“瞎子”。
在今天中美如此关系的情况下,如果还有人还认为这是臆想,是不可能发生的事,那就是还没有看透美国企图遏制中国的决心。美国就是想通过遏制中国的创新,阻止中国产业的转型升级。未来要达到这一目的,凡是影响到创新的手段,都有可能被美国加以利用,所以中国一定要做好准备。
目前,国际上高质量的非专利文献和专利文献资源大都由欧美所掌控,德温特、美国化学文摘CA、IEEE……。其实看看中国专利局、各大高校科研机构的图书馆和情报机构采购的目录清单,就会发现,国外资源占据绝对优势,我国每年为此要付出数十亿元。
从高校、科研机构或企业研发角度,这些资源必须要购买,广大研发人员才能了解全球最新、最全研究进展,从而做出适合自身的创新。
有人会说,学术远离政治。但又有多少人会想到,在美国政府制裁华为的时候,注册地在美国的IEEE、WiFi联盟、JEDEC协会等组织都成为美国政府封锁的对象呢?
而且不要忘了,在美国“极限施压”的情况下,断网都是有可能发生的。
这也是为何国际非营利组织——互联网名称与数字地址分配机构ICCAN——在特朗普成为美国总统的前一个月,“虎口脱险”般的从美国政府手里接管了互联网基础资源管理权。因为特朗普在竞选时已经明确表示反对移交这一权利,认为这将会削弱美国对互联网的控制,与其奉行了“美国优先”政策政策相左[1]。
即使像ICANN的一些国际机构、协会在试图脱离或者搬出美国,但是依然无法保证百分百的不受美国政府的法规管控。
所以,我们必须要有Plan B。
再回到我们的专利数据库来看。其实中国不缺自主的专利数据库产品,但遇到的问题就好比中国在操作系统攻关上遇到的问题一样,我们不缺做出操作系统(专利数据库)的技术,缺的是能否搭建起整个应用该操作系统(专利数据库)的生态环境。
IncoPat的价值恰恰就是把这个生态环境给建立起来了。
还有人问我,有没有可能去阻止这一交易。因为他的出发点是国外把中国唯一具有中资背景且有广泛应用的专利数据库给收购了,我们理应去干预、去阻止。
我想这还是一股爱国热情在主导,但是真正冷静下来,对专利数据库这个产品有深入研究的话,我认为:
IncoPat就由它去吧,因为能代表中国高端自主专利数据库水平的三个难题,它还没有涉足或是攻克。
换句话说,再建一个IncoPat是不难的,难的是将三个难题都攻克,并能够形成广泛应用。
以下,我就这三点为何重要,如何打造,提一点看法,抛砖引玉,希望能够引起更多人的关注、探讨,一同将中国的自主体系搭建起来。
01 “两弹”:数据深加工+中国专利分类
专利数据深加工的重要性我在前一篇中已经基本说清楚了,这既是专利数据界历史发展所沉淀下来的经验,也是未来高质量发展所必须的关键环节。
但是上一篇中并未展开如何进行专利数据深加工,以及我国目前已经开展的专利数据加工情况进行介绍。
实际上,我国政府专利主管部门在专利数据的加工上一直都有在做,而且每年投入大量的资金去做这个事,否则的话,我们看到的专利数据将是更加散乱无序的。
但是这个加工,和我所说为了更好的为创新提供情报支撑的加工还有一定距离,如果这个标杆是参照德温特的话。
那么未来,如果从可操作层面上去完善数据深加工的工作,我认为如果把下面两点突破了,中国专利界在外国同行面前就真的能挺直腰板了。
1. 重点产业数据深加工
面对如今每年上百万件的专利,如果做到像德温特那样的数据加工,成本和人力都是难以支撑的。即使是德温特自己,后来也不得不找印度等一些人力成本比较低的地方进行摘要改写。实际上,从人力成本角度上来看,中国还是有一定优势的。
因此可行的操作模式是分批分类,挑选对中国自主创新优先级要求更高的产业去试点做,例如“卡脖子”的基础材料,生物制药,半导体和集成电路等亟需突破的产业。
这些领域中,专利发挥了重要的影响力。因此对标德温特的模式去做数据深加工,对标题、摘要、创新点、有益效果,甚至一些有价值的字段进行二次加工。集腋成裘,可以想象,未来对创新的引导作用将会是极大的。
在试点的基础上,可以根据人财物的投入情况,再扩大深加工的范围。
2. 中国分类体系的搭建
在全球已经在美国专利分类(UC)、欧洲专利分类(EC)和日本专利分类(FI/FT)的基础上形成了国际统一专利CPC体系的情况下,中国是否还有必要再形成自己的分类体系(CC)?
我的建议:需要!非常需要!这个工作甚至比深加工数据还要重要。
首先我们看分类体系出现的初衷是什么?最开始,是希望将更多相同领域、相同技术点的专利归集到一起,便于后期专利审查员检索时查询。
美、欧、日这三个全球创新的聚集地并没有完全依赖国际专利分类IPC,而是各自形成了一套自己的专利分类体系并一直保持下来,我想初衷也是因为IPC自身存在很多限制或问题,美、欧、日根据对所在国家或地区的创新情况和专利审查情况的评估,认为需要进一步完善IPC的体系,才会形成各自的分类体系。
即使由美欧推动建立的联合专利分类CPC代替了国际专利分类IPC,但是像日本特许厅现在对每件专利的分类号分配上,依然保留了给予FI/FT的分类习惯,为什么会这么做?
因为FI/FT的分类远远要比CPC分得更细、更好,这就能为日本专利审查员或是日本企业创新带来高效率。
而且综合比较UC、EC、FI/FT和CPC来看,日本的FI/FT做的是最好的,不仅形成了更加复杂的而且是全球唯一的二维分类体系,更是在分类员分配FI/FT号时做到了最优,有的日本专利的FT分类号多达四五十个,这在其它分类体系内是很少见到的。
这么做的好处是什么?最明显的就是专利审查员检索效率更高,企业在创新研发时的现有技术定位更准,尤其是在日本优势的产业方面,其FT分类号的细腻程度堪称全球第一,这或许也是为何日本能在其优势产业方面的创新和专利越做越强的原因之一。
所以说,无论是为专利审查还是为公众服务,更加全面和细致的分类体系绝对是一大利器。
我国政府专利主管部门曾经在中国优势的通信和中药等领域,对此有过突破,并形成了CPC提案,但是丰富CPC体系和自主形成一套适应于我国产业特点的分类体系是完全不同的两个事。
去国际提案新CPC虽然是一件很光荣的事,能彰显我国实力,但是流程和时间的繁琐,加之能够对CPC的改善毕竟有限,实际上是不如自建一套基于CPC的扩展或是像日本一样完全形成新的分类维度的效率更高。
而且中国全球第一的专利数据优势是自建体系能够成功的一个重要前提。
这是一项极难开头并继续的工作,需要极大的勇气与国家支持才有可能成功,堪比中国专利界的“两弹一星”工程,有可能数年默默无闻才能形成一定成果。
在建立中国分类体系上,有两条道路可供选择:
一是做增量。就是将分类条目做的更细,假设我们能够在CPC大概3、40万分类条目的基础上增加一半或是一倍,先不说去国际上提案,即使我们自己用,效果也会极大显现。
二是做减量。类似于德温特的手工代码MC,总量只有2万多,因为是专家结合再编辑的摘要内容,确定了专利的效果和应用领域,准确度极高,这个分类更适于从应用角度去确定技术点,对创新的帮助也很大。
可以说不管哪点突破了,对中国重点产业的创新效率提升和专利审查效率提升将是立竿见影的效果。
我相信,日本人可以做到的,中国人一定也能做到,关键取决于要不要做、有没有决心去做。
“数据深加工”与“中国分类体系”这两点就好比操作系统的内核,其它专利检索系统、专利分析工具更类似于操作系统应用层的APP程序,需要的时候需要访问内核去调用信息。因此如果这两点能突破,在专利界的地位堪比“两弹”试验成功。
02 "一星":人工智能AI
如果人工智能AI技术在专利数据库上能够成熟应用,那么“一星”的难题也就顺利攻克了。
为什么AI技术应用到专利数据库中这么重要?主要还是当今社会处在海量的数据爆炸时代。这与70年前德温特成立时所处时代已经完全不同。
据世界知识产权组织数据显示,2000年,全球专利申请量50万件,2004年就突破100万件,到了2016年,光中国专利申请量就突破100万件。目前,全球有近1.4亿件专利申请。
这还只是专利数据,如果算上论文、会议等非专利文献,人类的知识库已经庞大到一个检索一项现有技术变得异常吃力的事情,因此对以人工智能为代表的新技术应用需求就显得非常迫切。
而将AI技术引入到专利数据库上,受益的不应仅仅是1万多专利审查员,帮助他们提高专利审查质量。更多的是将这一技术普惠到中国400多万人年的研发群体,让他们充分了解现有技术水平,提高研发起点和研发效率,只有这样才能更好的减轻后端专利审查的压力。但是目前来看,这一目标还远未达到。
这与AI技术目前还不成熟,以及现有AI技术的专利数据库覆盖面有限都有关系。
现在几乎每家数据服务提供商都在宣称自己有AI技术,例如科睿唯安有50人各类专家组成的团队,IncoPat和PatSnap也在早几年就开始了AI方面的探索,但实际上,真正做出效果的并不多,或者做出的水平都大体相似。
如果真的要挑出一支能够为国家所用的AI技术服务商,我的建议是:可以对Patentics进行全面考察。
因为这有可能是中国在专利界里除了专利数量赶超国外之后,第二个能够引领世界的项目。
(下面是Patentics的广告时间,我会详述为什么会给它家做免费广告)
1. 到底由谁来扛起中国AI专利数据库的大旗?
AI技术应用到专利数据库中,有很多需要攻克的难题,我对此认知大概还停留在两年前国内的情况(如果近两年有新的突破技术出现,可以在文后留言或是联系我交流)。
从两年前的情况来看,Patentics在AI技术优势从使用者角度反馈来看,应该还是比较明显的。这与它的掌门人裘钢不无关系。
其实,作为一个专利检索爱好者,从十多年前Patentics面世之初,我就在试用它,也想看看所谓的智能检索到底能到什么程度。时间长了,新鲜感过去后,我又回到了传统检索的模式,也逐渐发现了当时所谓的智能检索的主要瓶颈。
此后,我几乎没有再深入研究过Patentics的变化。
因为我的检索经验告诉我,任何一种智能检索只能帮你达标,却无法帮你治本。
真正要成为一名检索专家,检索技能、检索思路和检索经验只能算是基本配置,对检索数据库收录情况的了解程度,对检索字段及其关联数据的熟悉程度,对背景行业技术脉络的掌握程度,对各国专利分类体系的认知,对不同申请人专利文本用词的特点,对不同国家代理人的撰写特点,有时甚至是一个直觉,往往都是需要人的大脑经过复杂计算才可以计算出的,而这是仅凭语义分析相似度就冠以智能检索的分析工具所难以企及的高度。
但是就是在这样一个我认为几乎不可能实现的领域,裘钢数十年如一日,孜孜不倦的敲着他的代码。硬是把一个不可能完成的任务,做成了一个看起来还真像那么回事的一个产品。
我一直认为,做一件事,如果是因为爱好去做,就离成功不远了。
这就是之所以给它家免费“做广告”的原因,实际上不是对产品,而是基于对人的认可。
作为一个技术出身,半道出家学习“专利”的人来说,其对“专利”的理解远远超出其它家专利数据库服务提供商的专业AI工程师。据说他为Patentics申请的美国专利都是自己在答复OA,能做到这个程度,可见他对专利法的了解已经到了什么程度。
这或许也是很多专利数据库提供商,包括政府专利主管部门的职能部门都在做AI检索,但是没有一家能出类拔萃的原因。
只懂技术、只懂专利、只懂编程都无法做出理想的系统。而对专利法、专利文本、专利字段的深入了解,才能让他随心所欲的尝试出最优的组合方式来构筑他的核心算法。
但是他设计的系统太专业、太超前,以至于普通用户很难上手,玩的溜的反而是已经掌握一定专利检索技能的诸如专利审查员群体。
所以,我的直觉告诉我,这个东西应该是好东西(需要深度评估)或是具有成为好东西的品质。关键是能不能为国家所用,可能取决于两点:一是国家有没有同样的认识,认可这个产品;二是裘钢本人愿不愿意将产品分享出来,以目前仅凭他一人掌握核心算法来看,产品未来迭代存在很大不确定性。
如果以这个算法,配上国家在底层数据深加工上的完善,中国自主专利数据库就有望打破国外在高端专利数据库上的垄断,实现大幅度的超越。
2. Patentics姓“资”还是姓“社”可能是困扰发展的关键问题
IncoPat模式可以复制,但是核心算法却难以复制,从这个角度上看,Patentics的估值可能会超过IncoPat。
如果Patentics能为国家所用,主要困扰的因素可能是裘钢的美籍身份如何处理。
10月17日,中国的《出口管制法》正式发布,这是比照美国对关键技术管控形成的中国对照法。其中有一些问题还有待进一步澄清:例如中国籍人员在境外研发的技术等物项是否应当视为管制物项?[2]。
同样的问题反过来,美籍的裘钢在中国的研发成果是否应当视为管制物项?裘钢作为Patentics核心算法的唯一发明人,又是企业负责人,是否会受到美国出口管制法规的限制?该其核心算法是否会属于美国《出口管理条例》(EAR)中商品控制清单ECCN的条目?
根据美国出口管制法规为其技术霸权服务的目的,会尽可能的在“域外管辖”上行使其“保护原则”,即使从“属人原则”的扩张适用来看,EAR对美国国籍的范围也延伸到了美国的实物(commodity)、软件(software)或技术(technology)[3]。
所以,这个问题怎么考虑,我不是这方面的专家。是我多虑了么,想想那么多美籍华人回国创业,难道凡是涉及目录里的就都要管制?希望出口管制方面的专家能够留言或私下指导下。
这么来看,几年前Patentics没有被科睿唯安收购成功,或许是一件好事。
无论是从国家主动收购,还是防止境外收购,做防御性准备,我觉得对Patentics都应当引起重视了。
如果最终评估具有不可替代性,就要尽早着手下一步的计划,否则的话,就要开始加快自主AI技术的开发。
03 写在最后
当中国专利界的“两弹一星”工程完成,中国专利在世界的形象和地位可能会发生根本性的变化。
但是这个工程一定要由热爱专利事业,具有爱国情怀的人来参与、来主导。
IncoPat的结局其实在它诞生时就已经决定了。背后资方的商人本性,就注定会以商业利益最大化为其根本出发点,所以对其出售不必过于惋惜。
真正的专利人,撸起袖子加油干吧!
希望十年后,在胜利的军功章上能看到你的名字!
最后,感谢专利界前辈们的经验交流与分享!
参考文献: