查看原文
其他

So Young Sohn:信用评级与专利保护中的AI技术概览

So Young Sohn 人工智能前沿讲习 2022-05-21

报告导读

本次报告So Young Sohn首先通过自己的从业经历,描述了机器学习技术在工业界近年来的运用与发展。然后,介绍了她的研究团队使用AI相关技术在初创企业的评估、贷款评分等级、专利保护与筛查、交通大数据、共享单车空间布局等方面的研究工作。


专家介绍

So Young Sohn,韩国延世大学教授,韩国科学与技术研究院院士。曾获得研究贡献教授奖,韩国年度杰出女科学家, Yonam国际研究奖,英国外交和联邦办公室奖等。主要从事空间大数据分析,专利政策科学和基于技术的信用评分。



报告内容

随着AI技术的发展,数据采集的技术手段也在不断增强。我虽然不是来自计算机科学学院的,但我的主要工作却是主持其学校的工业数据实验室,我认为实验室的使命是通过使用数据的方式去贡献社会,解决产业问题。
80年代末,我在匹兹堡深造,并在学习中萌生了做助教的想法。当时我注意到有个教授获得了某个发电厂的项目,这个项目的目标就是能够区别酶的好坏,希望能够识别酶的特性,推动燃炉锅炉的效率,这个是非常典型的产业问题。面试的时候这名教授问我知不知道线性的分类分析,另外还有如何使用数据包来评估和分析大量的数据。当时是我第一次接触产业数据这一行业,很显然,当时我并没有回答出来任何一道问题。

经过在匹兹堡进行了三年的研究生学习,我获得了学位,被聘为副教授。在美国的研究生学院,我有机会获得大量的实验数据进行军事实验。我回忆道:其中一个数据,应该是我遇到过的最大型的数据,是由一个海军飞行员出身的研究生带来的传感器数据。当时他希望分辨数据中已有的目标,这个不需要进行太多的测试输入,这也我的第二次涉及到产业数据方面的工作。

在90年代重汽的时候我曾在理工大学参加了一个非常古老的工程项目,当时理工大学在宣传推动数据采集,那是我第一次接触数据采集。当时我所负责的数据组是由“通用塑料”所提供的,他们通过数据采集来分析制造业方面的问题,并且识别这些产品生产时的操作工况。当时的AI技术已经可以应用于这些领域,并用于更加先进的制造业,这令我非常震惊。

留学十年之后我决定回国。我说:“当我踏上祖国的土地时有一个逆文化的冲击,可能有些中国学者也经历过,就是留学过一段时间之后回到国内会产生逆留学冲击,已经非常不熟悉祖国的一切了,但这也给了我一个全新的机会去开展一个全新方向的研究。“在90年代,当时的韩国政府建立了许多的支持项目来支持初创企业,其中一个项目叫做韩国技术信贷基金,这是为了能够支持那些拥有潜在技术前景却缺少资金的初创企业。通过这一金融机构,初创企业可以获得非常低息的贷款,但需要在三到五年内还清这笔钱。如果很多初创企业没有能够偿还这笔资金的话,负责监督基金的金融机构就很有可能面临破产,于是他们找到我,让我建立一个新的审查机制。我考虑到这些初创企业的立足点,意识到需要首先要评估这些企业的技术,然后再评估他们的市场可行性以及技术的正确性,另外要考虑技术的管理如何,盈利性如何,人力资源怎么管理,资金供应怎么管理等等,包括16个特点,其中有12个是5分,其他的4个是10分,所以把它算下来就是100分。任何的项目申请资金如果是60分以上就可以获得资金,他们就可以从银行里面低息借款。但是他们申请的时候只需要根据这些分类的指标来进行评估,但是随着时间的流逝,他们发现评估的方式需要进行一些调整,所以分别建立了信贷模版,分数模版与评估模版。后来又注意到这些企业提供的信息不够,所以补充了一些参数,像公司层面的数据,技术变量的这些模版,因为这是通过经济状况来进行调整的,最后创造的是这个新注册的模式。

更重要的是目标的可变性,也就是说公司借钱然后再偿还,这个模型太过于简单了。考虑到这个资金计划是基于技术做的,所以需要了解这些初创公司是否真正能够发展新技术,或者他们能否创造了知识产权。另外我们需要了解在这个过程中产生了什么样的变化,产生了什么样的活动,这是各种目标的变量。因此只关注有没有偿还贷款的评估方式太过简单了,我们必须查看整个不同变量的目标,提供多目标的任务。

我在建立模型的同时也得到了联合国的贸易发展机构的认可,当时他们希望设立一个创业的框架,能够提供给发展中国家,其中的一个战略就叫做“过去获得融资”,我受邀参加了这个会议,并分享了我的经验。当时还有一个来自于哈佛大学肯尼迪学院的团队也参会了,那时我并不知道他们在做什么,后来才知道,这一团队建立了一个筛选模型为小微企业的提供融资,而我主要是负责给技术专家的融资,它们是两个不同的渠道。但是我发现,这种对创业的评估和筛选是非常重要的,比如说他们会提供一些心理学的方式,包括会对是否有正直的人格,较高的智商,良好的人品等等因素进行考量。同时也会将一些图片数据、照片数据、声音数据、脸部表情数据和面试的数据收集起来,所以模型会有各种各样的数据输入,这些都是用AI的方式来完成的。在这里我们可以看到了一个贷款评分的系统,这也是用AI来做的。

当我们有了一个新的商业模式之后,有很多纳税人的钱都用到了这种技术的筛选模型当中去了。所以我在想,如果我跟我的赞助商说,我们有一个专利,假设这个专利是我的,但是我后来发现我们的关系可能变得不好了,因为某些原因我跟赞助商的关系变差了,我们就要签一个协议,这样的话所有项目以外的开发都是属于我了。所以我个人会认为,赞助商可能会觉得这个协议对他们不利,他们就想要拿回他们的产权。我用了很大的力气发展商业模型,设计有很多的激励机制避免这些事情的发生。现在对于创业者来,之前的评估体系不是特别好,所以在这方面我们可以做更多的研究,比如说我们可以更好的去管理和保护专利。利用于韩国的国家基金会的研究资金,我花了六年的时间总结了一些研究方面的问题,主要是五个不同的方面,包括知识产权的创新,知识产权的使用,知识产权保护。我们要把这件事情做好的话就需要有一个非常好的机制,所以他们就做了各种各样的专利保护的研究和调查,并且推出了一些新的IP的领域,也做了相关的研究。这个领域更多关注的是社会层面,所以我们可以看到专利的这些活动,很多时候都是有关于社会现象的,因此可以将这两件事情联系起来,比如说跟社会问题、宗教和创新联系起来;另外可以跟当地的问题联系起来,比如说跟法律,还有跟全球战略联系起来。这也是我目前的研究方向。

这是一些专利的例子,它们来自于美国的知识产权专利办公室,我们可以将不同的信息总结出来。例如我们可以看到专利的头衔,它的发明者,更重要的是我们可以看到有很多不同的专利码,它代表不同的技术。另外还有这些引用的一些信息,告诉我们这种新的技术有多复杂,它的复杂程度是多少,它对于过去技术的借鉴有多少。还有一个摘要和声明。这就是一个信息量非常大的数据结构,包含了各种各样技术的问题和技术的信息。我们并不是说要分析所有的专利,更重要的是我们要分析某些重要的专利。当然我们也要去定义哪些是重要的,我们要去分析和区别一些专利,比如说用于制定标准的一些专利,因为大家都需要标准,那么这些跟标准有关的专利就非常重要了,它们的价值也非常高。我们做了一个分析,通过跟国际的专利委员会和专利库联合起来一起进行划分的四个时间点,体现出了重要专利的时间框架。从而我们可以看到这些重要专利的引用密集度不断的增加,还有随着各种各样的相关专利的出现,这些重要专利出现的可能性也相应地增加了。

那么筛选重要专利的方式是什么呢?就是要判断是否是一个三元的专利,所谓的三元专利,即是同样的一个专利,它不仅得到了美国的许可,同样也得到了欧洲和日本的许可,这就是一个三元专利。五年前大概有500万的三元专利,组成了一个核心网络,我们可以进行网络的分析,比如说如何进行专利的组合以及产生新的专利。筛选出这些重要的专利,涉及到不同的层面,同时我们也可以预测哪些领域会出现新的专利。我们发现了在医药层面这个新的专利出现的频率是比较多的,这就建立起了一个新的网络分析。我们可以看到这个专利的网络是什么,推进的过程是什么,以及它的安全体系是怎么做的。

通常来说,我们很难理解不同的单个节点,这些节点是要结合起来理解的,所以我们现在正在使用AI的方法,或者说用语义学的方法来进行分析。我们所做的事情,就是我们会把相应的专利结合和收集起来,进行文本分析。比如说我们会使用各种各样的方式,包括各种各样的分散式记忆和储存方式,我们就能够比较两个专利集群之间的相似点和不同点到底在哪里。除此之外,我们还可以预测一下新的专利会出现在哪里,在汽车行业的话,如果你想要知道未来会如何发展,比如昨天我们谈到了无人驾驶和自动驾驶的一些话题,接下来汽车行业可能会和电信行业进行结合,我们就会关注到这些结合的层面。

同时我们也会一些链接预测的估计,还会有一些其他的估计和模型,包括语义分析等等。在这里我们使用的是分散式分析以及机器学习算法这样的方式。我们可以看到这些链接,如果左右对比话,就可以发现如果没有用AI的话可能会丢失一些环节的联系。所以在接下来的三年当中,随着越来越多的数据出现。我们也会有一些新的预测模型。另外我们也可以判断一下哪些行业是更重要的,那些行业对于你来说是更具有价值的,我们可以将语义分析的方式应用到这里,或者跟其他的方式结合起来。我们要找到新的方式,探索这些新的领域。 

这些是我团队设计的一个深度学习的框架,包括卷积神经网络或者是其他的一些人工智能的方式来处理专利或者说处理自然语言,把相关的信息跟专利的重要程度连接起来。作为一个研究者,或者作为一个工程师,对我来说,更加重要的是要去选择数据,要有一个目标,如果没有正确目标的话,不管做什么事情,不管做什么样的训练都不会得到任何的改进。那么我们用什么样的方式来呈现最具价值的专利?有没有更简便的方式? 

很多的信息分析他们都是通过“引用”的方式,如果这个专利被引用了很多次,那么它就是重要的,或者说它们会觉得这个专利非常的可靠,就会花很多的钱去获得这个专利。但是我们还是要先去定义我们使用这个专利的目标到底是什么。

我的团队曾获得了韩国土地建筑交通部的赞助,他们想要使用该团队的大数据技术来提供服务,包括交通运输、环境,这样能够更好更便利的生活。因此他们找到了一些特殊的大数据可以应用在交通、环境和民生上。举个例子,比如说我们可以来设计大巴的路线,这是整个首尔的地图,我们一共有484条路,大概会有6万条道路的识别,也就是12.4万米。我们选了个早高峰的例子,让出租车的GPS记录路径,每个出租车的路径都是可以有专门的路名,根据路名来定位出租车。我们可以发现在不同的路径上对出租车的需求的变化,通过路径的序列我们可以将这些结果可视化。

这两个图,这是整个出租车的轨迹,在整个的早高峰,在右边的这个图又展示出租车的聚集状态。根据出租车的需求量,我们可以给首尔分为25个区分配大巴路径。我们还可以把这些路径进行更为复杂合理的设计,比如收益最大化以及成本的控制等等。绿线是原来的大巴路径,红线是我们新增加的建议,通过我们AI的分析,所以我们不仅做了一站,我们也做了其他的站,新的路线更加的曲折一些,因为能够反映出更多的出租车需求。
下一个可控的交通问题是共享单车的布局,在首尔共享单车需求正在不断上升,我们希望能够预测自行车共享的程度,但是这个程度跟居民区的距离没有直接关系。为了能够呈现自行车的需求,要考虑每小时的需求、每天的需求、每月的需求以及环境因素带来的影响,例如有没有下雨,下雨的时候需求是不是会减少等等。为了解决这些问题,我们可以把它放在一个序队当中,在每个图表的网络当中记录每小时、每天、每周的需求,然后把它们充分连接起来,这样才能够预测合理的需求程度。最后我们把这些共享单车部署到地铁站附近,这样的布局方式就比现有的科学多了。

最后一个例子是关于环境方面的应用,比如我在酒店住18楼,通过窗外可以看到一些绿化过的屋顶,所以我们可以建议在首尔大都会的办公室上面也选择一些屋顶进行绿化,但是我们应该选择哪些屋顶呢?考虑到我们的资源比较有限,所以必须要选择一个较为合适的大楼。通过获得特殊的经济数据、二氧化碳排放的数据以及降雨的数据,我们基于这些信息,利用大数据的手段去选择这些大楼,比如哪个大楼能够更多地受益于天气变化、抵抗洪水破坏、利用二氧化碳排放等等。此外还有一个约束就是要反映绿化覆盖率,我们希望能够最大化绿化覆盖率。一个较为直观的评价标准是我们希望选择能够吸引更多蜜蜂的大楼,因为如果一栋大楼的屋顶能够养蜂,说明它的环境就越好。将这些因素考虑到一起,我们可以通过大数据分析最终选择这些大楼的地点。

最后,如果我们将金融技术、专利分析、大数据等技术结合在一起,就可以建立起RIS(地区创新系统),每个领域都需要一些新的技术创新,创新需要其他领域的一些技能,这样就可以把这三个都结合在一起,从而使得这个地区得到更好地发展以及更好地管理。


历史文章推荐


你正在看吗?👇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存