查看原文
其他

如何科学地分析不精确观测的数据?

廖伟骏 探臻科技评论 2023-01-01


导读

概率论是研究随机现象发生频率的数学分支。然而,若估计的分布函数与数量的固有频率不够接近,概率论约定的乘法规则可能会带来决策上的错误,归根究底,适用于具体空间的数数原理并不一定能够推广至所有抽象空间。事实上,在现实的应用中,基于专家信度给出的分布函数和固有频率往往不接近,此时,不确定理论将是一个可靠度更高的数学工具。


本文总字数5612,阅读约19分钟。



作者简介

廖伟骏,2020年清华大学研究生特等奖学金候选人,清华大学数学系2018级博士生,师从刘宝碇教授,研究方向为不确定理论。已发表 SCI 检索论文 19 篇,Google Scholar 引用 106 次。

与本文相关研究的主要学术贡献

针对不确定理论的一个重要应用,我研究了扰动项为不确定变量时的回归系数及残差分布计算方法,进一步引入不精确观测(如区间数)下的回归分析方法,从而得出预测值、置信区间等数字特征。


1.研究背景: 一个应用上的悖论

假设现有 100 个罐子,我承诺在每个罐子里放入100 个球,这些球要么是红色的,要么是黑色的。你只知道每个罐子里红球和黑球的颜色分布是独立且相同的,但你对这个分布函数一无所知。考虑下列三个罐子问题:

(1) 第一个罐子里有多少个红球?

(2) 100个罐子里总共有多少个红球?

(3) 你觉得红球的总数为 10000 个的可能性有多大?

如何利用概率论解决上述的罐子问题? 由于你完全不知道红球的数量,因此,你只能根据拉普拉斯原则来进行判断,即红球数量为 0,1,2,···,100 的可能性都是相等的 (当然,如果有更多信息,可以选择其它分布函数)。所以对于每个满足 1 ≤ i ≤ 100 的 i,在第 i 个罐子里的红球数量是一个随机变量

注意根据我的承诺,这里 ξ1, ξ2, · · · , ξn 都是独立同分布的随机变量,那么 100 个罐子里的红球总数为和

其值可为 0 到 10000 中的任何一个整数。由于红球总数为 10000 等价于 100 个罐子里每个罐都放有 100 个红球,因此红球总数为 10000 的概率是


这里 Pr{·} 表示概率测度。也就是说,概率论告证你红球总数为 10000 的概率是 3.6 × 10−201,现在我们再设计一个游戏:

A. 若红球总数是 10000 个,则你输 1, 000, 000 元,否则贏 1 元;

B. 不参与这个赌局。

你该选择 A 还是 B 呢? 若利用概率论进行计算,则红球总数为 10000 的概 率是 3.6 × 10−201,那么选择 A 的期望收益是

由于选择 B 的收益总是 0,我们有 A>B. 也就是说,概率论告诉你选 A,这是否符合你内心的选择呢?

我是怎样把球放进这 100 个罐子里的?

现在来揭晓我是怎样把球放进这 100 个罐子里的:首先我取定了如下的分布函数

其实这就是常数 100 (请注意我完全有权力去选择我所喜好的分布函数)。接下来,我根据分布函数 Υ 生成了一个随机的数字 k,再在第一个罐子里放入 k个红球以及 100−k个黑球; 然后再根据分布函数 Υ 生成了一个新的随机数字 k,并在第二个罐子里放入 k个红球以及 100 − k个黑球; 重复这样的过程直到我把 100个罐子里的球都放好。由于每个罐子里放有 100个红球,而 100, 100, · · · , 100 真的是独立同分布,因此我没有违背我的承诺。注意红球的总数确确实实是 10000个。

若利用概率论的结论 (选 A),那么你将输掉 1, 000, 000 元。如果我们重复 这样的实验,只要你继续使用概论率进行计算,那么你就会再次选择 A,然后 输掉 1, 000, 000 元。

为什么概率论在这个例子里会出错?

本质原因是我们假设了每个罐子里的红球数量 (大概地) 服从均匀分布:

而这个均匀分布函数与我们的实际频率

是不接近的,在这样的情况下,概率论就会导出错误的结果。

2.从公理角度解释問題

需要指出的是,这样的 “悖论” 并不是想说明概率论是错误的,事实上,一个数学公理体系的错误是指其公理会在推导过程中出现互相矛盾或重复,而不是在 “实际” 应用时带来错误。因此,以上的例子只能说明在 “分布函数和实际频率不够接近” 的情况下,应用概率论会带来意想不到的结果,这样的结果可能会导致决策错误。

要想更清楚地意识到问题产生的原因,我们来回顾概率测度的三个公理: 非负性、规范性和可数可加性。在这三个公理之外,还有一个非常重要的假设,那就是概率乘法定理,事实上,虽然它被称作是定理,但其实它无法被三个公理推出 (部分教材会以独立性与乘积空间、条件测度等方法 “强行” 推出,但其实所有的这些证明都会陷入循环论证,即也要先 “假设” 某个与它等价的性质成立,本质上还是无法被前三个公理推出,或者可以认为它就是第四个公理),当年Kolmogorov为何将其称为 “定理” 的原因我们难以考究,但现在的教科书一 般是这样让我们接受乘法的:假设有一个均勻的硬币,正反面概率各为 1/2,则掷两次会出现正正、正反、反正和反反四种情况,因此概率就是 1/2×1/2 = 1/4; 类似地,假设有一个均勻的骰子,各个点数出现的概率为 1/6,则掷两次骰子也可以 “数” 出 1/36 的概率,这些例子说明了概率乘法定理的 “合理性”。

接下来,这样的乘法就被推广至所有的独立事件当中,例如甲到达的可能性是 0.7,乙到达的可能性是 0.8,则甲乙同时到达的可能性是 0.7×0.8=0.56. 可是,这样的推广真的合理吗? 本质来说,“乘法” 描述的是一个矩形的物理面积,这样的面积计算建立于欧氏空间,一个人类看得见、摸得着的空间,然而,甲与乙到达的事件真的是建立于如此具体的空间吗?如果不是这样的空间,“乘法” 是否必然成立?


当一个矩形被慢慢压缩成 “线” 的形状,你还会相信其面积是长 × 宽吗?

事实上,给定甲到达的可能性以及乙到达的可能性,我们的直觉只能感知到他们同时到达的可能性应该会变小,至于变到多小,相信只能 “规定” 出来一个值。乘法给定的值是一个暂时没有出现矛盾的数学公理体系,也就是概率论; 而如果把这个会变小的值取到最大,其对应的运算就是取小 (因为可能性都是一个不比 1 大的值),即甲到达的可能性是 0.7,乙到达的可能性是 0.8,则甲乙同时到达的可能性是 0.7∧0.8=0.7. 在这样的运算规定下会产生出一个新的数学公理体系,也就是接下来要介绍的不确定理论 (uncertainty theory).

3.频率与信度

回到前文所引入的罐子悖论。当分布函数和实际频率不够接近时,应用概率论可能会带来错误的结果,換句话说,我们可以认为概率论是用以研究频率的数学工具; 而事实上,不确定理论则是用作研究信度 (人们对某个事件的相信程度,用以表示估计的分布函数和实际频率不够接近的情况) 的数学工具。

现在我们来更仔细地看分布函数、频率和信度的关系:为了分析某个特定的量(例如: 股票价格、市场需求、产品寿命等),首先需要知道其分布函数以表示该量落在当前某点 x 左侧的似然性大小 α。如果当前点从左至右移动,分布函数的取值显然会变大。若分布函数的取值为 0, 就表示该量是绝对不可能落到当前点的左侧; 而若分布函数的取值为 1,就表示该量是绝对不可能落到当前点的右侧; 若分布函数的取值为 0.6,就表示我们有六成 (60%) 把握该量会落到当前点的左侧以及四成 (40%) 把握该量会落到当前点的右侧。

为了得到某个量的分布函数,通常只有两个方法: 一个是由样本 (历史数据) 生成的频率,另一个则是由领域专家给出的信度。


3.1 怎样处理频率?

假设现在收集了关于某个量 (例如股票价格) 的一些样本,我们以累计频率 表示所有样本落在当前点左侧的可能性大小 (以百分比表示) 的函数,累计频率本质上是一个阶梯函数。

频率是某个量的固有性质,它不会因为我们的认知和喜好而改变,当样本数量足够多且不会发生突发事件 (例如战争、地震、意外,甚至是谣言) 时,我们才有可能找到一个与频率足够接近的分布函数。在这样的情况下,概率论无疑是处理问题的唯一合理方法。

然而,在许多情况下,我们没有足够的样本,又或者是无法避免突发事件的发生,由于我们无法通过当前时刻预测出下一时刻会发生的事情,因此所估计出的分布函数会与频率出现较大的差异。若我们只能利用这样的分布函数,那么使用概率论将会带来违反直觉的结果。


3.2 怎样处理信度?

信度对我们每个人来说都是熟悉的,信度所描述的对象是一个事件 (命题), 如 “太阳会在明天升起’’、“下个星期是晴天” 以及 “张三是一个年轻人” 都是一些被信度描述的对象。信度代表你相信某个事件会发生的程度,若你完全确信某个事件会发生,那么你的信度为 1 (完全确信); 若你认为某个事件绝对不可能 发生,那么你的信度为 0 (完全不信)。一般地,由于你不会比 “完全确信” 更加相信,也不会比 “完全不信’’更加不信,因此对每个事件给出的信度是一个介乎于 0 到 1 之间的数字。信度愈高,就代表你愈強烈地相信某个事件会发生。

信度严重依赖于个人的认知和喜好,当认知和喜好改变时,信度也会跟着改变。举个例子,请大家来猜猜我的生日。对于完全不认识我的人来说,他/她会认为我在二月出生的可能性是 8% (1/12 的约数); 对于我的朋友,这个可能性也许会变成 80%; 而我的母亲则可以 100% 肯定我在何时出生。由于不同的认知和喜好,不同的人对同一事件会有不同的信度。

那么哪个信度是正确的呢?只能说,所有信度都是错误的,不过某些是有用的。信度只有在与频率一致时才会变得 “正确’’,可是,世事往往不会如此巧合。为了描述某量,我们需要信度函数以表示该量落在当前某点左侧的信度,一般地,一个信度函数的取值在 0 到 1 之间,且随着当前点从左至右移动,函数取值会变大。

同一个数字特征,在不同的情况和语境下,对于频率和信度的表达也会截然不同。例如我现在掷一个硬帀,那个它出现正面的可能性是 1/2,这里的 1/2 是概率,因为大量的实验表明掷硬币出现正面和反面的频率确实是相等的; 而如果现在我告诉你我手心藏了一个硬币,通常来说,我们还是会认为出现正面的可能性是 1/2,可是,这里的 1/2 是信度,事实上,你并不清楚这个硬币的正反面到底是如何决定,可能我是掷出来的,也可能是我根据个人喜好选出来的,这种情况下硬币的正反状态是一个已经确定的事件,只是你不知道而已 (如果是掷出来的,甚至连我都不知道),但由于没有更多额外的信息,人们一般还是会基于直觉给出可能性为 1/2 的结论。

现在是否会对著名的思想实验 “薛定谔的猫” 有了另一番理解?

由此可见,信度函数无疑是描述某量的一类重要分布函数,由于它常常与频率有较大的差距,因此使用概率论会带来违反直觉的结果,在这样的情况下,我们应该使用不确定理论。

4. 一个应用: 不确定回归分析

假设 (x1, x2, · · · , xp) 是一列解释变量,而 y 是响应变量,模型

是回归模型的一般表示形式,这里 β 是未知的回归系数,ε 是扰动项,通常被认为是期望和方差未知的正态变量。我们希望 x 与 y 的关系可以全部通过 f 来表达,因此,ε 在理想状态下不应该含有额外的信息,也就是说,残差图应是一个 期望和方差恆为常数的图象,即残差均勻分布在某根水平线两侧的 “零图”,这 也是 ε 有时被称作白噪声的原因。

遗憾的是,实际的数据往往难以避免混入异常数据 (当然这也产生出各种洗异常数据的方法),我们亦难以找到完美符合未来趋势的模型 f,因此,现实 问题计算出的扰动项往往不是真正的白噪声,或者说,我们估算出的扰动项分布函数与假设的理想分布并不接近。根据前文叙述,此时,把 ε 看成是一个随机变量可能不是一个好的做法,相信不确定变量的引入对于未来回归分析的研 究可以起到一定的启发作用。

以上是基于理论层面的一个解释。而对于实用层面来说,把 ε 看成是不确定变量也会带来众多更漂亮和直接的结果。我们都知道,两个独立随机变量相加的结果需要用卷积来表达,如此类推,n 个独立随机变量相加将会产生 n − 1 维的卷积分式,即 n − 1 重积分。计算现实变量分布函数的 n − 1 重积分并不是一个轻松的工作,特別是对于自变量较多,因此 n 很大的情况下,计算的复杂度是难以想像的。因此经典的回归总假设数据是在精确观测的环境之下 (即收集的数据是精确的常数),然而在一些问题里,我们得到的数据是不精确的,只能根据估计出的分布函数进行计算,特別地,如果数据能够给出一个精确的下界和上界 (如每天股价的最大值和最小值),这样的数据就是区间数。


即使是像区间数这样形式最简单的不精确数据,基于概率论的经典线性回归都无法得到一个便于计算的解析解,这也使其理论难以在不精确观测的假设下继续推广。而若把这样的数据看作是不确定变量,可以证明线性回归模型回归系数 β 的估计可利用如下的公式计算:

对 i = 1,2,··· ,n 以及 j = 1,2,··· ,p. 这里 Φ−1 和 Ψ−1 都代表逆分布函数,而区间数的逆分布具有形如

的形式 (这里 b 和 a 分別是上下界),可以进一步简化计算。由公式可见,不管自变量的数量是多少,最后都只需要计算一重 0 到 1 的积分,这对于回归模型分析不精确数据来说是一个非常漂亮的结果。

计算出回归系数 β∗ 之后,对于扰动项 ε 的期望值和方差,对 i = 1,2,··· ,n 以及 j = 1,2,··· ,p, 可以分別利用公式

进行计算,也就是说,基于不确定理论旳回归模型的系数 β 和扰动项的期望和 方差都可以得到计算,从而可以给出 x 和 y 之间的函数关系 f 以及不确定变量 ε 的分布函数,进一步给出未来趋势的预测值和置信区间。至此,一个回归模型的基本工作已大致完成。


5. 结语

通过概率论在实际应用里可能出现的悖论,我们指出其公理体系中一个相对不直观的假设:乘法定理,当估计的分布函数和实际频率不接近,或者说,当人们给出的信度和事件既有的发生频率有一定差距时,不确定理论的引入是必要的。结合回归模型在处理实际问题时难以达到理想的残差图,我们给出基于不确定理论的回归分析方法,这个方法对于处理不精确观测环境下的数据也是有利的,而回归系数、扰动项的分布函数、预测值、置信区间等基本数字特征亦可以得到计算。

诚然,目前这方面的工作都比较初步,包括假设检验、估计量的评价等标准都有所欠缺,我们亦只可以通过思想实验的形式说明为何 “必须” 是不确定理论。不过,基础研究的成效往往是需要时间见证的,事实上,不确定理论从提出至今的十三年历史里,其理论体系正在不断得到丰富和完善,并已成功应用至军事、采油、药研等领域,期待以后可以做出更多的有趣的工作和有用的成果。



参考文献

[1] Rui Kang, Qingyuan Zhang, Zhiguo Zeng, Enrico Zio, Xiaoyang Li, Measuring reliability under epistemic uncertainty: Review on non-probabilistic reliability metrics, Chinese Journal of Aeronautics, Vol.29, No.3, 571-579, 2016.

[2] Waichon Lio, Guangquan Cheng, Two-degree-of-freedom Ellsberg urn problem, Soft Computing, Vol.24, No.9, 6903-6908, 2020.

[3] Waichon Lio, Baoding Liu, Residual and confidence interval for uncertain regression model with imprecise observations, Journal of Intelligent & Fuzzy Systems, Vol.35, No.2, 2573-2583, 2018.

[4] Baoding Liu, Uncertainty Theory, 2nd edn, Springer-Verlag, Berlin, 2007.

[5] Baoding Liu, Why is there a need for uncertainty theory? Journal of Uncertain Systems, Vol.6, No.1, 3-10, 2012.

[6] Baoding Liu, Uncertain urn problems and Ellsberg experiment, Soft Computing, Vol.23, No.15, 6579-6584, 2019.

[7] Yuhan Liu, Dan A. Ralescu, Value-at-risk in uncertain random risk analysis, Information Sciences, Vol.391, 1-8, 2017.

[8] Zhe Liu, Uncertain growth model for the cumulative number of COVID-19 in- fections in China, Fuzzy Optimization and Decision Making, DOI: 10.1007/s10700-020-09340-x.

[9] Tingqing Ye, Dan A. Ralescu, Lifen Jia, Ellsberg urn problems with multiple degrees of freedom, Vol.37, No.6, 8267-8273, 2019.





文稿|廖伟骏

编辑|赵若时 李艳文 周圣钧 邱雨浩

审核|张可人

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存