李子牛:未来人工智能的发展,数据科学有何可为?|TechX 2022 机器学习导师专访
9 月 3 日, 2022 世界人工智能大会落下帷幕,自大会连续举办多届以来,人工智能领域的发展也对我们的现代生活产生越来越深刻的影响。
本期导师专访,我们特别邀请到了来自香港中文大学(深圳)从事人工智能与机器学习方向的博士研究生、担任 X ACADEMY 2022 TechX 机器学习课程导师的李子牛,他与我们一起分享了对人工智能的前沿发展与未来前景的看法。
立足于数据科学的学习经历与前瞻视角,李子牛认为,不论是社交网络的算法推荐还是医疗制药领域的应用,数据科学都有着极强的潜力,而多阶段和个性化的决策将是其中最紧要的问题研究方向之一。
科研之余,李子牛也热衷于知识分享,并在知乎上拥有 2000 多位粉丝。他说,科研是一个相对封闭的圈子,但也希望自己分享的知识能够帮助别人,实现科研对社会的回馈。
(以下内容预估字数:4000 字,阅读需要:8 分钟)
Q:可以先请老师向大家介绍一下自己的学习成长经历吗?
A:我在西安交通大学读本科,当时选择的专业是电气工程与自动化。但后来我发现自己对计算机、人工智能更感兴趣,通过自学摸索以及各种实习交流,最终在博士阶段选择了数据科学的方向。在大三到大四这段时间里我也有过很多实习经历,当时是在杭州待过一段时间,后来还在南京大学担任了将近一年多的研究助理。
我本来是打算出国,后来因为疫情的原因,仔细考虑之后,我觉得在国内发展也挺好的,最终选择了香港中文大学深圳分校来继续博士的学习生涯。香港中文大学深圳分校也比较立足国际前沿的视野,我感觉也更适合我个人的发展。目前我博士二年级已经结束了,马上要进入博士三年级的科研生活。
平时我会在知乎做各种分享,包括分享一些领域内的基础知识,以及我在这个过程中的成长转变经历。其中我印象比较深刻的是,当时我高中毕业想报考数学方向,但被父母阻止了。他们简单地认为学数学出来就是教数学。这也是不太了解这个学科的人容易存在的误区,一般人都会觉得数学在现实生活中应用可能比较窄。
因此,当时我选择了偏工程的方向。我在读本科的前两年,对数学专业还没有特别深的执念,我只是觉得我在数学课程上的成绩比较好一点。相对其他课而言,我也比较喜欢工科数学分析和线性代数这两门课。
在我本科第一年结束的时候,我甚至想转去数学系。但是我跟系主任聊过以后,他不建议我转专业。他觉得对数学有热情不代表就能在数学系能学得好,因为初等数学和高等数学还是有很大的区别的。
到后来我选择了机器学习方向,这其实是一门交叉学科,是应用数学中的统计、优化以及计算机科学中算法设计的交叉。在大二大三的时候,我通过网上的各种图书、公开课程和知乎上的分享(对我影响比较大的是吴军写的《数学之美》和《浪潮之巅》),发现这个交叉方向可能更适合我一点,因为它更贴合我的学习兴趣(兼顾理论和实际),同时学起来也不是特别地难。如果一个东西对自己特别难的话,那样学起来也是比较沮丧的。
《数学之美》是关于自然语言和信号处理的入门级图书,这本书通俗易懂,让李子牛体会到了数学背后的魅力。
图源:豆瓣
Q:您能展开讲讲为什么会对更细化的强化学习方向产生兴趣吗?
A:我先简单介绍一下什么是强化学习。强化学习其实是一门关注序列决策任务的学科。序列决策是指,在不同的阶段,我们需要做不同的决策。其中一个例子就是自动驾驶,我们希望车子在没有人类的帮助下,能自动从一个目出发地出发,然后到达一个目的地。我们发现在这个任务中,车子在不同阶段需要加速减速、换道、超车等等。这个过程涉及一系列的决策,而不是单个的决策。
在生活场景中,大家也会接触到一些单阶段的决策任务。比如人脸识别或者图像识别,只要做出一个决策,这个任务就结束了。但是在自动驾驶这个任务中,决策者需要在不同阶段需要做出不同的决策。
我第一次接触强化学习是在 2016、2017 年。当时阿法狗 (AlphaGo)打败韩国选手,后来又打败我们中国的顶尖选手柯洁,这个新闻在当时引起了很大的关注,当时公众都在激烈地讨论人工智能会不会取代人类。
李世石阿尔法围棋人机大战现场
这个新闻激发了我的好奇心, 当时我了解到阿法狗主要是使用强化学习这门技术。在围棋任务中,决策者双方通过不断地交互做出决策,你做一步决策,我做一步决策,最终希望能打败对方。这也比较贴合前面提到的强化学习的设定。所以我当时有很强的意愿去学习这一前沿的方向,希望能做出一些研究成果,也希望自己的研究能够落地,能够给我们的生活带来便利。
Q:您在专业学习上有没有什么特殊的方法?
A:之前高中的学习方式是从一本书开始,我们会把整本书都给学透,老师教授知识的时候也是从前到后地讲解。这种思维甚至到了大学阶段我们也会保留。但是很快我们就会意识到:学习是无穷无尽的,知识也是无穷无尽的。
而有时我们可能会面临一个紧急的任务,其实只要用到部分知识就可以了。这个时候就比较考验一个人的学习能力。在这里的“学习”是广义的,我们不单只是学习某项知识,还包括学习某项技能。尤其到了研究生之后,学习则是比较有针对性的。一个教授曾告诉我:到博士阶段就不可能拿着一本书从前读到后,你可以跳着去阅读或者跳着去学习,你需要用到哪里的知识,你就去学那个章节。
《浪潮之巅》是一本介绍科技公司和科学技术发展的书籍,角度新颖,文字有趣,对李子牛在职业方向选择上影响很大。
图源:豆瓣
博士阶段的学习非常强调学习的针对性,而不是泛泛而学。我一开始接触强化学习的时候,我自己的体会就是能学习得更加专一一点,就不要全部都学;不要指望自己全部都能学会,也不要遇到一点困难就停下来。
Q:您在知乎上做知识分享的时候,怎样去思考学术和科普之间的关系?
A:首先我想谈一下自己为什么要做知识分享这件事。科研资金主要来源于教育部和纳税人,但是科研的成果是相对封闭的,能够落地的比较少。所以我希望在科研中不管做了什么,最终都能够反馈给整个社会。
科研其实是近 200 年的事情,就像在以前的社会中,电影或音乐在诞生之初也属于一种小团体的艺术活动,后来才发展为大众化的活动,也有更多专业的人从事电影、音乐创作来呈现给大众。因此,我也希望科研能够受到大众的监督,能够让大众有更多的了解。
此外,对我个人而言,知识分享也会给我带来一种成就感,它标志着我完成了一件事;以及带给我一种分享的喜悦感,觉得自己分享的知识能够帮助到别人。
我的目标也没有很大,只是想着在一个小群体内部做交流,比如高校的大学生或者研究这个方向的学生。等到未来我的能力有了更大提升之后,我也会考虑给大众进行科普,激发大家对这个领域的兴趣。
这也是我为什么加入 X ACADEMY 暑期项目的原因之一,我希望能给更多的高中生了解这些科研的进展、前沿的知识。
Q:做科研是不是特别辛苦,以至于这是一件需要我们去慎重考虑的事情?您认为科研是否值得这么大的投入,对您自己来说也好,对其他想走学术道路的学生也好,您有什么要分享给大家的建议?
A:博士研究和本科学习有很大的不同。本科有教授来传递知识,但是到了博士阶段就是自己去学习知识,也更强调独立性。如果你比较喜欢探索或者独立完成一件事的话,科研也会比较适合你。但是也要考虑自己长久的职业规划。博士生涯需要投入四到五年甚至六到七年的时间,从个人规划来说,要考虑这个时间成本的投入是否划算。
左滑查看更多
李子牛参加 RL Theory Workshop 和 TBSI (清华-伯克利深圳学院) Learning Theory Workshop
图源:受访者提供
科研是矛盾的。从外人看来(包括我自己),科研确实比较累,但一般是累一阵轻松一阵。轻松的时候,时间也比较自由一些,可以做任何想做的事。但是忙的时候,也是那种朝九晚十一的状态,每天都需要付出大量的时间。
此外,科研收获的成果比较小众,只有小圈子的人才会认可,得到的反馈可能也相对少一点。因此我认为科研这项活动还是更适合于拥有冒险精神的人。但我的观点也可能比较局限。如果大家能有实习的机会,或者提前参与到某个教授的科研项目,或者从事相关行业科研岗的职位,我都非常建议大家先去体验一下,多与不同的人进行交流,最终做出选择。
Q:就这个人工智能当下的发展趋势,您认为在未来它有什么样的、更突破我们想象力的发展?
A:如果从学科的角度出发,人工智能算法现在已经有了比较成功的落地应用,包括人脸识别以及图像处理。但这些都是应用都是单阶段决策任务。我认为在未来会有大量多阶段决策任务的落地应用,比如前面提到的自动驾驶、商品推荐、视频推荐等。同时,未来也会出现更多根据用户的喜好来满足个人定制化需求的算法推荐。
个性化这一点,在早期的计算机或者互联网时代是很难满足的,因为之前的搜索推荐都是针对大众的需求,比如谷歌搜索,每个人搜索出来的结果都是一样的。而现在的搜索则会根据用户以往的历史去推测用户的喜好。
如果我们不考虑道德或者隐私的角度,我相信未来会有各种各样的智能机器人或者智能硬件能够满足我们个性化的需求。但同时这里也涉及到大家都很关心的问题,也是目前非常有争议的问题:关于用户数据安全、个人隐私保护的问题。
一个例子是:我们的人脸识别涉及到的数据包含我们的生物信息,如果它受到滥用的话,也会对个人用户带来很大的负面影响。除此之外,一些社交媒体可能给用户推送一些“不好”的新闻,来影响这个用户的想法和决策。从这个角度来思考,技术发展到一定程度之后,我们就自然要面临一些社会层面上的问题考虑。
Q:那么我们该如何对数据科学的未来前景进行展望?
A:近十年提到比较多的一个词是社交,社交这种行为很难用物理或者化学甚至数学的定理或规则来描述,它更多地就是由人类衍生出来的行为。
物理学中存在像牛顿定律那样的客观定律,但是相比之下,人类社会的交互很难有一个确定性的准则。针对某些人的准则,可能在针对另外的人时就不成立了。这个时候如果我们能从数据中进行学习,来帮助我们处理这些任务的话会更好。我们将从数据中得到很多对社交行为的观测结果,同时也希望能从中挖掘新的知识来帮助我们解决一些任务。
因此我认为,数据科学在社会科学这种非客观规律的学科上将会有更多的应用,比如在社交场景中的聊天机器人。
另一方面就是要强调计算,这也偏计算科学。当我们拥有更强的计算力之后,我们可以去求解那些非常复杂的任务。
举个简单的例子,比如大家都熟悉的解二元二次方程,我们在初高中就接触过,可以手工求解最优解;但是对于一些比较难的科学计算问题,人为的手工求解(最优解)需要花费非常非常长的时间,而计算机就可以在很短的时间内解出来。那么,对于这种涉及复杂计算的问题,计算科学的应用前景也很大。
计算科学可以帮助求解一些生物、化学中的问题,包括分子合成等其他重要的应用。考虑药物合成,我们希望研发出更好的药物来延长人的寿命,或者提高我们的生活质量。但因为药物研发需要涉及到原材料的搭配和组成,不同的搭配和组成导致的结果也不相同。有的搭配导致结果比较好,有的搭配导致结果比较差。这是一个优化问题,也是一个复杂的计算问题。
目前我们看到一些像 DeepMind 的大公司在这方面已经有了一些突破。从数据科学的角度,有一个新的名词叫 AI for science ,目的是利用人工智能的方法来求解自然科学中的一些难题。这里会涉及很多学科交叉的方向。未来也应该会有更多学科交叉的研究。
采写:兵书
编辑:兵书
排版:灵〇