求是讲座|明尼苏达大学曹新宇教授:机器学习视角下的非线性关系研究
10月27日上午,我院成功举办求是学术讲座第175讲暨大数据公共治理第2讲,本次讲座的特邀嘉宾为明尼苏达大学公共事务学院曹新宇教授,其讲座主题为“机器学习视角下的非线性关系研究”。本次讲座由我院讲师仲浩天主持,教授秦波,讲师龚芳颖、张译文,国发院研究员肖超伟,以及国内外两百余位师生参加了本次讲座。
曹新宇博士是明苏尼达公共事务学院教授。研究兴趣包括土地利用和交通的互动关系,电信技术对交通行为的影响和满意度分析。他发表SCI/SSCI论文110多篇,谷歌学术引用一万多次,H指数46,并担任TRANSPORTANTION RESEARCH PART D期刊主编。
在本次讲座中,曹新宇教授首先从线性回归的特性与实际模型案例出发,指出现实中很多问题都不满足线性的假设,即研究变量间可能存在非线性的影响。为了更准确地解释变量间的关系,对政策效果提供准确估计等多方面考量,我们应当对存在非线性影响的变量采取非线性方法而非线性回归。
传统解决非线性问题的方法包括分段回归、二次项、对数化、GAMM等。然而传统方法存在限制性假设、无法解决不规律的非线性等多方面缺陷,因此机器学习在解决非线性问题上的重要性凸显。
接着,曹新宇教授以决策树这类典型的机器学习模型为例,向我们展示了决策树模型的内部原理,并提出决策树模型在解决非线性问题中存在准确率高、帮助解决多重共线性、对缺失值和outliers不敏感等优点,同时具有模型透明的特性,能够清晰看到每个变量的相对重要性。当然,决策树模型也存在一定局限性,如无法输出p值、可能存在过拟合等。
最后,曹新宇教授以自己的两个研究为例,向我们深入浅出地展示了机器模型在非线性研究中的两个应用场景。同时,曹教授也提到了一些将机器学习方法用于其他领域的现有研究方向。他指出,机器学习这类非线性方法是工具,而研究更重要的是要有一个好的研究问题,选择合适的问题找到合适方法展开研究才是最重要的。
分享结束后,与会师生与曹新宇教授就相关问题进行了深入的探讨交流。
曹教授表示,做政策研究时,好的故事比高级的模型更重要,首先是要文章引人入胜,再就是采用的方法和模型新颖、结果有意思。同时,曹教授提到,结果和常识不一致不一定就是错误的,有时候和常识不一致的结果也能有合理的解释,我们做研究一定要突破认知的局限性。
编辑:曾桢
人 大 公 管
中国公共管理教育与研究引领者
欢迎关注
中国人民大学公共管理学院
公众号
http://spap.ruc.edu.cn/