这样的宣传不仅是对专利服务行业的不尊重,也是对AI行业的不尊重!
最近一篇名为“人工智能专利撰写机器人诞生”的文章引起不少关注,一家知识产权行业的企业宣称研发出专利撰写机器人,文中引述“专家”的话,“以前8天写一件专利,现在可以轻松一天写8件,为了更好的规定行文规范,……还特意邀请了专利局的人进行合作,可谓诚意十足。有了这些大腕儿的参与,质量也是没得挑了!说句毫不夸张的话,可以轻松秒杀工作5年之内的专利代理人”
文章一出来就引来不少质疑,但也有不少人表示肯定,甚至担忧行业的未来。
然而,从目前文章公布的信息来看,这样的宣传不仅是对专利服务行业的不尊重,也是对AI行业的不尊重!我们对待新事物总是会走入极端,要么棒杀要么捧杀!
AI还远没有想象的那么强大
人工智能从上世纪五十年提出到现在,起起落落好几次,在2010年后再次兴起新的浪潮,特别是2016后Google的Alphago公关宣传,将人工智能推向风口浪尖,尤其在中国引发广泛关注,从人工智能的媒体出现率和资本投资动向可见一斑。
然而人工智能远没有想象那么强大,先不说专利撰写,就连简单的自然语言处理、智能检索都不过关。在自然语言处理方面,几乎不能用到严肃的工作中,目前也多应用于带有娱乐性质的活动中,比如写诗、娱乐对话等应用中,即使基于IBM的Watson系统开发的ROSS机器人律师也只相当于稍微智能一点的法律检索系统,而且应用领域还只限定在破产法。
在短时间内,我们还很难看到人工智能在自然语言处理中的大突破,更别说专利撰写了,机器学习的理论创新还不够成熟,实际上目前的火热很大程度上是因为硬件技术发展带动,计算机的处理速度大幅度提升能执行更强的计算,产生更好一点的效果,就连当下最火的深度学习中的卷积神经网络,以及增强学习(这也是alphago的方法)理论基础也很薄弱,系统的鲁棒性不强,传统一点的自然语言处理更无强大的创新。
计算机在自然语言处理方面目前实在“太笨”了,所谓的人工智能编辑实际上还是一种检索系统,基于一定的输入,在数据库找到匹配的文档,即便是这一步,计算机也做不好,比如技术人员在搜索“专利”相关的文献时,会在找到的文献根据上下文理解,甚至各种联想推理,判断这篇文献是否相关。而计算机则是要靠各种算法确定的模型去确定,比如常用的TF/IDF,依靠关键词“专利”在文章中出现的频率和权重判断是否相关,实际上这连基本的“表示”也没做到。
人工智能从本质上无法做到从字典库中调出单个字或词汇组成句子,只能依据输入的关键词在数据库中找到匹配的文档和段落,即使在这一环节,也很难找准,所以需要运用基于各种算法的模型,包括当下比较火的机器学习(统计学习),这也是人工智能的核心,让机器学习,通常的统计学习方法利用现有的一些数据集,基于算法训练一个模型,再用这个模型去预测新的数据,为了方便解释,我们举一个简单的例子吧。
比如我现在想查询自动驾驶的方面的专利文献,如果用机器学习的方法(监督学习),首先要找到一个训练的数据集,这个数据集都是自动驾驶相关的专利文献,我们总结自动驾驶相关文献的特征,比如这类文献包括关键词自动驾驶、自动刹车、雷达、摄像机,当然出现这类词的文档可能不一定都是自动驾驶相关的专利,也可能就是一篇小说或者新闻报道,这时候就需要通过训练的数据对算法模型进行调参,比如规定出现自动驾驶这个词的时候,文档与自动驾驶相关可能性更大,那么自动驾驶的权重就更大,雷达也在其他类型的文献中出现,那么权重就小,不断调整模型,直到模型的准确度达到要求的程度,在文档分类中,目前有十多种比较常用的算法包括支持向量机、贝叶斯算法等,但都有关键的缺陷,而且一篇文章会有成百上千个关键,在算法上会有太多的维度,又涉及到降维,所以文档分类这种最基本的操作都很难达到许多场合应用的要求,更别说从这些检索的片段中组合成专利了。
我们应对人工智能技术有起码的敬畏和尊重
人工智能发展到今天,取得很多成就,也引起广泛的关注,在图像识别、语言处理、天气预测等领域都有运用,但仍然有很多未解决的问题,需要大量的基础研究,特别是数学领域、软件领域、硬件领域的创新,准确率在原来的基础提高哪怕1%也需要大量的人力物力支撑,而基础的算法创新更是科学家毕生甚至团队多年的研究,到应用层面就更难了。中国整个专利服务业规模才百亿,从市场角度很难让人相信有那么多资金人才投入到这方面的研究,而没有大的投入,依靠目前的算法,也很难让人信服这种撰写机器人会有多大的效果。如果本身不是人工智能,而是仅是想依靠这个概念商业炒作,是不是对AI领域的不尊重?
代理人没那么容易被取代?
从人工智能目前的状态,我们可以看出别说专利撰写,连稍微精确点的文档分类,目前的各种机器学习算法都有很大的缺陷,更不用说对语言的深度理解、技术的准确把握、法律思维的修养,这些代理人具备的基本素质,都是机器学习算法目前理论上都无法越过的障碍,更不要说应用上了。以前许多企业为拿补贴,出现过复印大量现有专利冒充申请,国家知识产权局一度还有专门的术语“非正常申请”,对于这种申请,我想AI是能实现的。专利行业在可预见的未来AI的作用有限,最起码的智能检索还有很长的路要走,更别说基于找到的文献的片段组装的专利了。当然AI对专利行业是有挑战的,这种挑战表现在AI未来应用的领域可能越来越广,而这个行业可能又是一个专利密集型行业,会有大量这方面的专利申请出现,包括自然语言处理、自动驾驶、医疗检测与诊断等等,进而相关的专利诉讼又会大量出现,会对代理人的业务量有新的挑战。
欢迎关注专利分析与布局公众号:patent12345