用AI帮忙,俯瞰AI江湖
如果你是本科高班或是研究生新手上路,对人工智能和机器学习这块肉很感兴趣,但又不知如何下嘴去啃,怎么办?
你很想知道:
哪些话题最近最热?升温最快?
哪些大牛最高产?粉最多?
这时候,除了问教授,还有什么(大致)中立客观、数据驱动的手段来扫视群雄吗?
有!
今天就把这个「神奇的网站」介绍给你。
我跟这个(装)内行神器结下佛缘,还要感谢一面数据的一位暑期实习生。这位实习生姓名响亮,发音酷似某国前总理。「总理同学」刚刚结束实习,从深圳过关回香港科技大学继续攻读博士学位去了。对了,一面数据的CEO @Tony REN 也是港科大的博士,他选拔实习生的标准是择优录取,绝不是任人唯亲。
「总理同学」在港科大选过张连文(Nevin L. Zhang)教授的课。张教授是北师大应用数学和不列颠哥伦比亚大学计算机科学的双料博士,主攻人工智能。为了帮新入坑的研究生们迅速融入AI系,张教授打造了这个叫「人工智能文献全景图」(AI Panorama)的工具。这个网站利用人工智能技术来扫描归纳人工智能文献,听起来是不是有一种理发师给自己理发的感觉?
这个工具后台的算法叫「分层隐式树分析」(Hierarchical Latent Tree Analysis, HLTA),对这个有兴趣的可以直接跳到文末。
先说覆盖面。目前,这个工具囊括了9个会议3个期刊的论文,缩写如下:
这里三个带「J」加红标签的是期刊。包括了中国计算机学会推荐的四大A类刊物中的两种,舍去了TPAMI和IJCV。
70后刊物AIJ就是《人工智能》:始于1970年,由荷兰的爱思唯尔(Elsevier)出版,中国计算机学会推荐的A类刊物。
90后刊物JAIR全称是《人工智能研究》:创建于1993年,是最早的互联网传播的同行评审学术期刊之一。后台是非营利组织AI Access Foundation。它被中国计算机学会归为B类刊物。
00后刊物JMLR全称是《机器学习研究》:由斯坦福毕业、SRI工作、布朗和麻省理工教书的人工智能女杰Leslie Kaelbling创建于2000年并担任首任主编。这是中国计算机学会推荐的A类刊物。
Leslie Kaelbling,图片来源:Kaelbling个人主页
这里面包括的9个会议,其中5个都是中国计算机学会推荐的A类会议。这5个会里,据「总统同学」暗中观察,
AAAI和IJCAI比较大杂烩,只要跟AI沾边,理论派应用派一起联欢
ICML和NIPS就比较像理论算法铁杆儿俱乐部
CVPR是视觉达人峰会
其实中国计算机学会共推荐了7个A类会议,而「全景图」只收录了5个,不知为何同样偏视觉的ICCV和偏语言的ACL并没有被张教授收录。在这两个会上大放异彩的作者们委屈了,可以电邮张连文教授,申请添加。
所以,我觉得这个「全景图」最容易被杠精们挑战的是具体会议期刊的取舍。这里确实体现了张连文教授的主观判断,并不一定能跟其他科学家达成共识。但是大致跟中国计算机学会的A类推荐期刊会议保持一致,所以数据范围应该算有代表性。
其实选定了期刊会议,我们可以用关键词检索来了解各个领域、课题的发文情况和引用量。但是这样做,对于初学者来说难度较大,因为关键词检索太碎了,我们又不熟悉关键词之间的关联,很容易只见树木不见森林。
「全景图」最大的贡献是:把基于单个关键词检索升级为基于「话题」检索。每一个话题是由数个强关联的关键词组成的,而这些话题的识别提取利用了人工智能技术,自动聚类。
让我们来体验一下。先看哪些话题最热。
工具的主界面是由标签组成的话题,话题有对应的趋势、论文数和在各大会议期刊的分布。
比如,点选近三年范围,我们可以看到,论文数排名的前五名话题是:
鼠标点击每一行话题,都可以看到该话题的详细论文数逐年统计,比如Regularization这一行,关键词包括「正则化,范数,正则化的,梯度,高维,NIPS会议,优化问题」。
这个话题最高引用论文是2003年JMLR期刊上的文章:An Introduction to Variable and Feature Selection,引用数将近一万。
再看哪些话题升温最快。按近三年增长趋势排序:
第一名Deep-learning的关键词包括「深度学习,sutskever,深度,神经网络,层,卷积,层们」。
第二名policy这一行是关于强化学习(Reinforcement-learning)话题的关键词。著名的机器人围棋大神阿法狗就是用的这个算法。这里的关键词策略、奖励、马尔可夫决策过程都是通关强化学习的必捡装备。中文入门可以参考知乎专栏:David Silver强化学习公开课中文讲解及实践。
阿法狗图标。来源:维基百科。
第四名这一行是计算机视觉类论文的话题。这里的关键词除了凸显视觉达人峰会CVPR,还识别出了张教授系统没有包括的该领域重要会议ICCV和ECCV,以及中国计算机学会推荐的那个A类期刊IJCV。
回来说第一名,Deep-Learning这一话题不仅在热度榜排第二,还高居升温榜榜首。这个话题涵盖了最厉害最酷的AI话题。令人折服的是,Ilya Sutskever这位AI大牛的姓氏居然被聚类分析识别为一个高相关的关键词,足见此人著作对该领域的影响之大。Sutskever是OpenAI的联合创始人和研究总监,他毕业于多伦多大学,斯坦福吴恩达的博士后,在谷歌工作过。
Ilya Sutskever,图片来源:他的推特
打开这个话题下的论文清单,我们顺手看一下这些大牛论文跟我们的生活有啥关系:
截屏自AI Panorama
论文①是Sutskever在2012年发表在NIPS上的大作,以近1.3万的引用数排名第一。论文题目:ImageNet Classification with Deep Convolutional Neural Networks。上回数据冰山的文章《AI小画手,说GAN就干!》中提到的那篇首创GAN的论文Generative Adversarial Networks,就是这1.3万引用者之一。标号②和③同为图像识别领域的巨作。
AI小画手用GAN涂鸦的汽车
论文④和⑤在自然语言处理领域建立了一套新的用向量表示词语的体系。
机器翻译领域最有名的论文之一就是论文⑥。
每天用刷脸的方式开手机电脑又好奇背后算法的用户,不妨了解一下论文⑦这篇DeepFace。
除了按论文排序,还可以比较作者的引用量(Cited)。比如还是这个话题,Sutskever毫无悬见夺取了圈粉榜的榜首。
可以看到这一话题十强里面有两位华人姓名拼写,一位是谷歌的陈楷(清华/特拉华/UIUC),另一位是前微软现旷视科技的孙剑(西安交大)。
谷歌陈楷。来源:Google Scholar
旷视科技首席科学家孙剑,图片来源:Google Scholar
孙剑博士已经于2016年7月离开微软加入旷视科技担任首席科学家。旷视科技就是Face++,人脸识别起家2011年创立于北京中关村的人工智能公司。
再看高产榜:
高产榜中的华人姓名拼写是Xiaogang Wang,香港中文大学副教授,毕业于中国科大/港中大/麻省理工。
Xiaogang Wang,图片来源:Google Scholar
所以,借助张连文教授的「AI全景图」,一个AI外行或新手可以在几分钟之内,筛选出3大期刊9大会议中最近几年热度最高、升温最快的科研课题,比如「深度学习,sutskever,深度,神经网络,层,卷积,层们」,并熟悉其中产量高粉丝多的科研大佬。
这个全景图的背后是一种叫「分层隐式树分析」(Hierarchical Latent Tree Analysis, HLTA)的算法。解决的基本问题是:按关键词搜索无法区别共用关键词的不同话题,以及话题之间的层级关系。HLTA通过识别一些树状关系的隐含变量,来把纷繁复杂的文献摘要总结成有层级逻辑关系的话题。目前这个工具支持三层话题的探索。
此处必须插入张教授照片和「全景图」链接,不胜感谢。
Nevin L. Zhang, 图片来源:他的个人主页
参考资料:
(封面题图摄影:雪寒)