AI热门领域交叉分析|在未来，机器学习与自然语言处理还会碰撞出哪些火花？

From AMiner 学术头条 2019-04-20

AMiner全新功能技术趋势分析Trend analysis（http://trend.aminer.cn）基于AMiner 2亿篇论文数据进行深入挖掘，包括对技术来源、热度、发展趋势进行研究，进而预测未来的技术前景。技术趋势分析描述了技术的出现、变迁和消亡的全过程，可以帮助研究人员理解领域的研究历史和现状，快速识别研究的前沿热点问题。

机器学习（machine learning）是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

从历史来看，机器学习是人工智能研究较为年轻的分支，似乎也是人工智能中发展最快的分支之一。一般认为，它的发展过程大体上可分为4个时期：

第一阶段

20世纪50年代中叶到60年代中叶，属于热烈时期。

第二阶段

20世纪60年代中叶至70年代中叶，被称为机器学习的冷静时期。

第三阶段

20世纪70年代中叶至80年代中叶，称为复兴时期。

第四阶段

机器学习开始于1986年，目前我们仍处在这个时期。

本文基于AMiner全新功能技术趋势分析Trend analysis和笛卡尔乘积热点挖掘，将为大家解读机器学习领域进行的趋势分析以及机器学习与自然语言处理域的交叉趋势分析。

机器学习趋势分析

下面我们将用Trend analysis分析机器学习领域内的研究热点。下图是当前该领域的热点技术趋势分析，通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题Top10如下：

machine learning
brain computer interface
artificial intelligence
support vector machine
gaussian process
missing data
image classification
social network
data mining
computer science

根据Trend analysis的分析我们可以发现，该领域当前最热门的话题是machine learning，从全局热度来看，machine learning的话题热度虽然有所起伏但从20世纪90年代至今其话题热度始终保持在Top 1，论文的发表数量也较多；brain computer interface的研究热度从2003年开始迅速上升，近几年话题热度更是超越support vector machine成为top 2 话题；另外，近期multi task learning 的话题热度开始逐渐上升。

通用机器学习技术奠基人之一的Thomas G. Dietterich在2000年发表的“Ensemble Methods in Machine Learning”回顾了集合方法并解释了为什么聚类通常比任何一个分类器都表现更好。

Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题，他发明了多示例学习、层次强化学习MAXQ框架及将非参数回归树整合到概率图模型中的方法。此外，Dietterich教授也参与撰写了美国白宫发布的两份重磅AI报告《为人工智能的未来做准备》和《美国国家人工智能研究与发展策略规划》。

机器学习&自然语言处理交叉趋势分析

我们选取自然语言处理域近期热度与全局热度最高，相关性最强的9个相关领域作为研究对象，具体包括：

Natural Language Processing
Machine Translation
Text Corpus
Language Modeling
Treebank
Nist
SemanticLabeling
Word Segmentation
Shallow Parsing

通过对两个领域的知识图谱的计算，再对两领域的细分子领域进行笛卡尔乘积热点挖掘，本文挖掘了历史数据分析和未来趋势预测两部分。

本文主要探讨2007年至今的研究状况；趋势预测仅以未来3年为周期来探讨。

“

领域交叉热力值由交叉研究的论文的citation等数据加权计算得出，热力值越高，表明这个两个交叉子领域交叉研究的越深入和广泛。

”

每个交叉热点中的研究学者，发表论文，中外学者和论文对比等数据均可以获得。用作展示时，研究学者和论文分别按照交叉领域研究影响度和论文相关度作为默认排序。

学者研究影响度由交叉领域内论文量，h-index等计算得出；
论文相关度由交叉领域内论文的关联程度和引用数量等计算得出。
对比分析中“中外研究人员对比”和“中外研究论文对比”是专家数量和论文数量的直接对比；
而“中外论文影响对比”是论文citation值的对比。

历史热点图

2007年至今机器学习领域与自然语言处理领域交叉分析热点图

2007年至今，全球共有10019位专家投入了机器学习和自然语言处理领域的交叉研究中，其中华人专家1754人，约占17.51%，共产生交叉研究论4310篇。学者H-index分布和Citation分布如下：

h-index	专家人数	分布占比
小于10	7141	71.27%
10~20	1356	13.53%
20~40	1028	10.26%
大于40	315	3.14%
总计	10019	100%

2007年至今机器学习领域与自然语言处理领域交叉研究学者h-index分布

citation	专家人数	分布占比
小于10	1836	42.60%
1~10	1328	30.81%
10~100	999	23.18%
100~200	81	1.88%
大于200	66	1.53%
总计	4310	100%

2007年至今机器学习领域与自然语言处理领域交叉研究论文citation分布

历史交叉领域TOP5

machine learning & natural language processing
Supervised Learning & natural language processing
Regularization& natural language processing
machinelearning & Machine Translation
Unsupervised Learning & natural language processing

我们选取历史交叉领域TOP5中的第一个：machine learning与natural language processing→机器学习领域与自然语言处理领域，进行详细的交叉研究分析。

机器学习领域与自然语言处理领域相关性最高的5位作者如下所示：

Michael I. Jordan

Geoffrey Hinton

Eric P. Xing

Hongjie Dai

Xin Li

机器学习领域与自然语言处理领域相关性最高的5篇论文如下所示：

题目：The Case for VM-Based Cloudlets in Mobile Computing

会议/期刊：IEEE Pervasive Computing

年份：2009

引用量：2583

作者：Mahadev Satyanarayanan,Paramvir Bahl,Ramon Caceres,Nigel Davies

题目：Cheap and fast---but is it good evaluating non-expert annotations for natural language tasks

会议/期刊：EMNLP

年份：2008

引用量：1770

作者：Rion Snow,Brendan O'Connor,Daniel Jurafsky,Andrew Y. Ng

题目：Deep Learning: Methods and Applications

会议/期刊：Foundations and Trends in Signal Processing

年份：2014

引用量：1368

作者：Li Deng,Dong Yu

题目：The Unreasonable Effectiveness of Data

会议/期刊：IEEE Intelligent Systems

年份：2009

引用量：873

作者：Alon Y. Halevy,Peter Norvig,Fernando Pereira

题目：A survey of modern authorship attribution methods

会议/期刊：JASIST

年份：2009

引用量：1149

作者：Efstathios Stamatatos

机器学习&自然语言处理历史研究数据对比

机器学习领域与自然语言处理领域历史论文数据

机器学习领域与自然语言处理领域历史专家数据

机器学习&自然语言处理中美对比

机器学习领域与自然语言处理领域中美研究人员对比

机器学习领域与自然语言处理领域中美论文对比

机器学习领域与自然语言处理领域研究中，领先的国家分别是：

美国🇺🇸
中国🇨🇳
日本🇯🇵
印度🇮🇳
加拿大🇨🇦
英国🇬🇧
德国🇩🇪
意大利🇮🇹
法国🇫🇷

机器学习领域与自然语言处理领域研究中，全球主要研究机构是：

哥伦比亚大学
微软研究院
锡拉丘兹大学
美国国家医学图书馆
中国科学院
北京理工大学
东京大学
科罗拉多大学
东京大学
卡内基梅隆大学

未来趋势预测

预测未来三年内运用交叉较高领域：

1.machine learning & natural language processing

2.Recurrent Neural Network & Language Modeling

3.Deep Learning & natural language processing

4.machine learning & Language Modeling

5.Topic Modeling & Machine Translation

AMiner预测机器学习领域与自然语言处理领域未来三年热点图如下图所示：

机器学习领域与自然语言处理领域交叉热点预测

机器学习是人工智能的核心，应用遍及人工智能的各个领域，目前机器学习已经在数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、DNA序列测序、战略游戏和机器人等多个方面都得到了运用，在未来，它的应用将会得到更多的拓展。

学术头条已建立微信交流群，想进群的同学请加学术君微信：AMiner308，记得备注：名字+单位/学校噢！

[关于转载]：本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“SciTouTiao”微信公众号。谢谢您的合作。

分享干货

AMiner迄今为止已发布16期AI系列研究报告，您可在后台回复对应数字获取报告。

2019年报告

15 → 《人工智能之数据挖掘》

16 → 《人工智能之知识图谱》

2018年报告

1 → 《自动驾驶研究报告》

2 → 《机器人研究报告》

3 → 《区块链研究报告》

4 → 《行为经济学研究报告》

5 → 《机器翻译研究报告》

6 → 《通信与人工智能研究报告》

7 → 《自动驾驶研究报告》前沿版

8 → 《自然语言处理研究报告》

9 → 《计算机图形学研究报告》

10 → 《超级计算机研究报告》

11 → 《3D打印研究报告》

12 → 《智能机器人研究报告》前沿版

13 → 《人脸识别研究报告》

14 → 《人工智能芯片研究报告》

推荐阅读：

清华大学计算机系近期部分科研工作进展

自然语言处理华人专家最多的前十所机构有哪些？

MIT TR 之中国区35岁以下科技创新青年人才分析

博士带你学LSTM|如何开发和评估Vanilla LSTM模型？（附代码）

python处理音频信号实战：手把手教你实现音乐流派分类和特征提取

清华大学人工智能研究院成立首个研究中心——知识智能研究中心

AI近10年21个子领域高引学者（AI-10 Most Influential Scholars ）

微信公众号菜单栏为大家设置了“论文推荐”和“优质分享”专栏，“北京讲座”移至“优质分享”专栏内，欢迎大家关注。

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文查看趋势图

反向激励，在加速这个社会的黑化

牠们做到这份儿上，也是奇葩！

“死人房地产”？湖北随州强制购买公墓收费引发热议

搜查徐才厚家时发现一个箱子，里面是五百万元和杨金山的简历

俄乌打仗，中国损失惨重，高达数千亿美元，未来损失不可估量