郁文:迈进人工智能时代的统计学|问学·复旦管院
“做统计学家的最大好处,
就是能在所有人家的后院玩耍。”
——著名统计学家约翰·图基
统计学本质上研究的是数据分析问题,而几乎任何领域都涉及数据分析,因此或多或少都能与统计学挂上钩。事实上,很多现代工业的发展与科学研究的突破都离不开统计学在其中的推动。正如著名统计学家约翰·图基(John Tukey)所说,在许多学科的研究方法中,多多少少都能看到一些统计学的身影。
在今天这个大数据时代,人工智能成为炙手可热的焦点,为各行业带来深刻变革。而喜欢在别人家后院“玩耍”的统计学也早已进入了人工智能的“后花园”。事实上,统计学与现代人工智能有着极为密切的天然联系,两者有着共同的研究对象——数据,又关注着共同的技术工具——算法。因此,统计学是公认的人工智能基础学科之一,在人工智能的快速发展中扮演中非常重要的角色。
那么,随着传统的学科藩篱被打破,迈进了人工智能时代的统计学又将如何书写新的图谱?本期「问学·复旦管院」邀请郁文教授,以统计学的经典分支“生存分析”中的一些研究为例,带来他的解读与思考。
全文3988字
预计阅读时间10分钟
01
「生存分析」的诞生背景
临床试验
生存分析,作为统计学一个重要分支,包含了一系列处理持续时间相关数据的分析方法。它的主要起源之一是统计学在医药研发领域的应用。
众所周知,医药开发离不开临床试验,而临床试验又离不开统计分析。由于临床试验中分析的持续时间常常是患者的“生存时间”,因此这些以分析生存时间为主要目的的方法被统称为“生存分析”。
要理解“生存分析”的特征,首先要聊聊统计分析中经常遇到的“数据信息损失”问题。
在做统计分析时,数据收集是一项非常重要的工作,人们一般会根据研究问题的需要,进行数据收集对象的设定和收集方式的设计,然后再按照计划收集数据进行分析。但是,现实的场景总是比较复杂,数据收集也不例外,会遇到很多时间、资源或者技术手段的限制,使得研究者未必能按照预想的形态来收集好所有的数据,此时就会发生数据信息损失。
回到临床试验中。一般来说,临床试验会有一个主要的试验目的,用某种形式的变量进行表征。比如,肿瘤药物或者危重疾病药物的研发目的是延长病人的寿命,所以病人接受治疗后的生存时间就是一个非常重要的表征变量。
理想来讲,研究者需要收集所有病人在接受治疗后完整的生存时间。但是在实际数据收集过程中,会有很多意料不到的情况发生。比如说,某些病人可能因为病情变化退出了试验;或者因为其他个人原因没有办法继续被跟踪,所以无法记录精确的生存时间。又可能,有些病人恢复较好,生存时间较长,当然这是很好的事情,但在试验结束时也无法获得他们完整的生存时间数据。
对于这些情况,研究者只能知道他们的生存时间长于某一个值,但并不知道精确值到底是多少。也就是说,实际收集的数据不完全是预先的理想形态,而是在信息上有一定的损失。这种信息损失是生存分析里最常见的一种损失的方式,被称作“删失 / Censoring”。
可以直观想见,这样的信息损失必然会给统计分析带来挑战,我们就必须在没有完全观测到精确的生存时间的前提下,设法对生存时间的分布进行统计分析。因此,在数据信息有损失的情形下进行有效的数据分析,就是生存分析最重要的特征,也是最大的难点。
后来大家发现,生存分析不仅在医学数据分析中有用,也不仅仅只能用来处理“删失”这种信息损失,还可以在很多领域被用来处理其他形式的信息损失。
02
「生存分析」的跨界应用
宇宙大爆炸是真的吗
这里我再举一个例子,也是我最近研究中的一个应用实例。这是一个天文学数据的分析,这个数据收集的对象是一种叫做“类星体 / Quasar”的天体。
这是一种距离地球比较遥远的高光度天体,被认为是20世纪60年代天文学的四大发现之一。从地球的观测角度来看,这种天体有一个很重要的特征,即表现出明显的“红移”。根据天文学家的解释,天体如果以高速飞离地球,就会表现出“红移”这种现象,也就是说,光谱中的光线会朝它的红端移动。
那么这样的一个天文学数据的研究目标是什么?是为了研究这种类星体的红移与其亮度之间是否存在统计关联性,据说这种统计关联性的存在可以给“宇宙大爆炸”假设提供一些佐证。
但是,这一研究也遇到了“数据信息损失”的问题。
在数据收集过程中,类星体的亮度都是通过天文望远镜观测并记录的,但是人类的天文望远镜的探测范围有限。如果类星体的亮度低于可探测范围,那么它的红移是无法被捕捉的;又如果类星体的亮度太高,则望远镜也无法判断所观测到的是否是一个类星体。所以,只有亮度在某一个范围内的类星体才能被望远镜比较准确地捕捉到,并且测量出它的红移,而超出这一范围的类星体,人类还没有可靠的方法去进行观察与测量。
由此可见,这种类星体的数据也存在“信息损失”的问题,而这种形式在生存分析中被称作“截断 / Truncation”。
在这一背景下,我们的研究试图提出一种分析方法,在存在“截断”的信息损失时,仍然能将类星体的亮度和红移在总体意义上的统计关联性没有偏差地估计出来,从而为天文学的研究提供一些数据上的证据。
03
最新研究
生存分析 + 神经网络
回到开头提到的问题,进入了人工智能时代的统计学研究会呈现出什么新的气象?下面,我想以自己最新完成的一个“生存分析”方向的研究为例来做点初步的窥探。
这个研究主要提出了一种基于深度神经网络的生存时间回归方法。大家可能知道,回归模型是统计学中最常用的模型之一,主要用于寻找变量间的关系,还可用于预测。在回归模型中,最常用的是线性回归模型。为什么它是最常用的?原因是线性结构相对比较简单,又比较容易解释和计算。同时,统计学者们可以在其比较简单的结构上,构建出诸多良好的理论性质。然而另一方面,也恰恰因为线性结构的简单,使得它在很多实际问题中的表现有较大的提升空间,因为现实世界肯定比“线性”模式要复杂得多。
在今天这个大数据时代,随着人们可获得的数据规模和数据形态大量增加以及算力的大幅提升,越来越多的学者希望突破线性结构来进行建模。在人工智能的热潮中,深度学习成为热门话题,而深度学习中最重要的技术叫做“神经网络”。神经网络,特别是深层次的神经网络,在足够数据量的支撑下可以用来逼近相当复杂的非线性函数。
在此背景下,我们开始思考能否将神经网络这一工具引入生存分析的回归建模中,以提升模型的预测效果。在生存分析中,回归的因变量一般是带有信息损失的变量,如前面提到的“生存时间”或者“类星体亮度”等。历史上最经典的生存分析回归模型称为“Cox模型”。它是一个针对危险率函数建立的回归模型,用以刻画自变量对危险率函数的影响。Cox模型的假设如下:
这里的“λ”表示危险率函数,不妨把它理解成一个个体在时间点“t”面临的死亡风险。这个表达式重要的特征是假设了自变量 X 对危险率函数的影响结构是一个线性结构。前面说过,线性结构带来很多的好处,但相对而言它的结构太简单了,不足以解释很多实际的情形,于是我们就在其基础上进行推广,提出了下面这个模型:
相比于经典模型,我们提出的模型在两个方面做了重要的改进。
· 把自变量 X 的线性部分延拓成一个任意的函数 m(X),就是说不给它加上所谓线性的限制。
· 引入一个随机效应 ,来刻画那些没有被数据收集到、但对危险率存在潜在影响的因素。
然后,我们使用了多层的前馈神经网络来估计模型当中的函数 m(X)。这种做法就是把深度学习中的技术引入到传统的生存分析回归模型之中,以拓展传统模型中较为简单的数学结构。事实上,我们在这个模型的基础上还提出了一个更加一般化的模型,以期适应更复杂的应用场景。
在提出模型后,我们主要进行了两方面的工作:
1、设计模型的估计算法,并结合实际数据展示这一模型和算法与现有方法相比在预测效果上的提升幅度。
2、从统计学视角给出该模型和估计算法的理论结果,也就是说,我们从统计理论的角度展示了深层神经网络方法在生存分析领域中应用时所具备的优良性质。
04
当统计学遇到人工智能
如前所述,分享这个研究的主要原因,源自我对于迈进人工智能时代后统计研究发展趋势的观察和思考。我发现,随着大数据和人工智能时代到来,统计学作为人工智能重要的支撑性学科,其研究热点也与人工智能有着相当密切的联系。
当下,基于深度学习的人工智能技术飞速发展,引起了广泛的关注。从早期的计算机视觉和自然语言处理技术,到现在的多模态数据处理、AIGC,再到如今最炙手可热的大语言模型。人们惊叹于人工智能所呈现出的令人惊奇的能力,同时也开始关注其背后的机理和原理,试图从理论层面来理解人工智能模型为何拥有这些出色的功能。
这正是统计学很多研究者感兴趣的议题。近些年,统计学领域涌现出一个备受关注的研究方向,即从统计学视角研究深度学习和神经网络的工作原理。我注意到,不少国际顶尖的统计学者都投入了这一领域的研究。他们的关注点包括深度学习、预训练技术,甚至大模型的运作机理等,试图从统计学的角度提供理论依据,以寻找人工智能算法表现出众的原因。
另外,还有很多统计学者致力于将深度学习、神经网络技术与传统的统计模型和方法进行结合,希望来提升传统统计方法的性能和表现。我刚才所分享的研究工作,就是将神经网络与生存分析当中的回归模型进行结合与拓展,也属于这一范畴。
从目前的情况来看,解释和理解人工智能模型背后的原理相较于其展现出的能力和进步速度来说,仍存在一定的差距。这在很大程度上使得人们对人工智能发展的方向和它能力边界的把握带来了不确定性,甚至产生一些担忧。
因此,这方面研究的重要性不言而喻,同时将给很多学科带来新的机会,成为众多学科关注的焦点。同样,这也将为统计学带来一个足够具有挑战性,但也是足够精彩的研究方向。
* 部分图片来源于网络
教授简介
郁 文
复旦大学管理学院
统计与数据科学系
教授、系主任
主要研究方向包括生存分析、经验似然、两阶段抽样设计、半监督推断等。在国内外学术期刊发表论文30余篇,主持国家自然科学基金青年项目、面上项目、教育部博士点基金项目。获中国统计学会第一届统计科学技术进步奖三等奖。担任中国现场统计研究会、上海市统计学会、 上海市质量技术应用统计学会理事等。
张成洪
如何“治理”AI算法,为人类自身“解困”?
► 点击阅读
王笛×褚荣伟
今天,我们为什么还要读历史
► 点击阅读