查看原文
其他

做人不能过拟合

louwill 机器学习实验室 2021-09-05

机器学习杂谈

Author:louwill

Machine Learning Lab

    

很早之前,只知统计学而未知机器学习。当初在学习统计学中的回归分析的时候,曾经对R-Square这个指标过于迷信,以致于常限于一叶障目的困境。

之前曾分享过特征工程决定了机器学习模型上限的这样一个观点,认为特征工程才是机器学习的关键。这个说法也不是说不对,主要是为了凸显出特征工程对于机器学习模型好坏的重要性。这个观点大多为一些喜欢打kaggle等数据科学竞赛的爱好者们所支持。


我一直以来推崇的观点就是:防止过拟合是机器学习的最关键问题之一。在机器学习的发展过程中,与欠拟合和过拟合做斗争一直影响着机器学习这门学科的进展,这场旷日持久的斗争是每一位学习机器学习的朋友都会亲身参与进来的一个实际存在的问题。


先回顾一下监督机器学习。监督机器学习的核心问题无非就是确定正则化参数的同时最小化经验风险。最小化经验风险是为了让模型更加充分的拟合给定的训练数据,而正则化参数则是控制这模型的复杂度,防止我们过分的拟合训练数据。

假设空间中模型千千万,当我们站在上帝视角,心里相信总会有个最好的模型可以拟合我们的训练数据,而且这个模型不会对训练集过度学习,它能够从训练集中尽可能的学到适用于所有潜在样本的“普遍规律”,不会将数据中噪声也学习了。这样的模型也就是我们想要的、能够有较低的泛化误差的模型。

说了这么多,一句话总结过拟合就是:在机器学习模型训练过程中,模型对训练数据学习过度,将数据中包含的噪声也学习了,使得模型在训练集上表现很好,而在测试集上表现很差的一种现象。

机器学习中如此简约直白的核心哲学,又何尝不蕴含了朴素的做人和做事的道理。

我前段时间读教员的《矛盾论》,对照着机器学习的核心哲学,大有启发:

高等数学的主要基础之一,就是矛盾...... 

... 

矛盾的普遍性和矛盾的特殊性的关系,就是矛盾的共性和个性的关系。 

... 

在复杂的事物发展过程中,有许多的矛盾存在,其中必有一种是主要的矛盾,由于它的存在和发展规定或影响着其他矛盾的存在和发展。



机器学习中过拟合的矛盾是普遍存在的,但具体的数据实例又有其特殊性。过拟合问题中我们要拟合的是数据中的普遍规律,所以要抓数据的主要矛盾...

对应到做人做事的人生哲学中,一个最核心的问题就是不能过拟合。过拟合在人和事上有很多具体的表现。

比如说有些人理论功底很强,但动手实践很差;有些人照本宣科在行,但临机处事不行。


《汉书》东方朔传里说:

水至清则无鱼,人至察则无徒。


意思就是水太清了,鱼就无法生存,对别人要求太严了,就没有朋友。简而言之,他们都过拟合了。历史上之所以有清官误国的说法,也可以由这两句话解释。明朝的海瑞大家都知道,论清廉刚正历史上绝对能排上号,可能是那种正直到没朋友的水平。但此人为官处事却远不如同时期的徐阶、张居正等名臣。

万历皇帝评价海瑞说:“虽当局任事,恐非所长,而用以镇雅俗,励颓风,未为无补。”万历认为海瑞的道德操守没问题,但为官做事却难以有建树。典型的过拟合。后来的康熙皇帝也总结过清官的好坏,认为清官要把摒弃自身的道德优越感,对人不可苛责太严,做人不能一味地依靠近乎偏执的强硬。

这篇文章东拉西扯了很多,但核心观点就是做人不能过拟合。一方面不能言过其实少实践,另一方面也不能严于待人过苛刻。与各位共勉。


有数据或算法学习等问题想要咨询的同学,可以加我微信,一般都会给到大家针对性的建议。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存