随机过程笔记
第一部分:为什么要研究随机过程?
人类认识世界的历史,就是一认识和描绘各种运动的历史,从宏观的天体运动到分子的运动,到人心理的运动-我们通称为变化,就是一个东西随时间的改变。
人们最成功的描绘运动的模型是牛顿的天体运动,确定性是牛顿体系最大的特征。给定位置和速度,运动轨迹即确定。但是20实际后的科学却失去了牛顿美丽的确定性光环。
因为当人们试图描绘一些真实世界,充满复杂而未知因素的运动时候,人们发现不确定的因素(通常称之为噪音)对事物的变化至关重要,而牛顿的方法几乎难以应用。而我们所能够给出的最好的对事物变化的东西,是一套叫概率论的东西。而与之相应的产生的一个全新的研究运动的方法-随机过程, 对不确定性下的运动进行精细的数学描述。
我们周边充满了各种各样的数据,所谓大数据时代,这些数据最基本的特点就是含有巨量的噪音, 而随机过程就是从这些噪音里提取信息的武器。
* 其实我们生活中也处处充满“噪音”。比如说我们每天发邮件,经常有一些人时回时不回。那些不回的人到底是忘了还是真的不想回,我们却不知道。一个书呆子统计学家会告诉你,你无法从一次的行为评判他,而要看他一贯的表现。
第一个随机过程方法的伟大胜利是爱因斯坦的布朗运动。一些小花粉在水里,受到水分子不停碰撞,而呈现随机的运动(花粉颗粒由于很小比较容易受到水分子热扰动的影响) 。 研究这些花粉的微小运动似乎有点天然呆,我们却从中找到了分子世界重要的信息。而花粉那无序与多变的轨道,也为我们提供了随机运动的范式(随机游走)。
如果给随机过程打个比方,它就像是一个充满交叉小径的花园。你站在现在的点上,看未来的变化,未来有千万种变化的方式, 每一种可能又不断分叉变化出其它可能。
第二部分: 描述随机过程的武器
随机过程怎么研究?几样神器是不可缺少的。
1. 概率空间:
面对不可确定的未来,无非有两件事需要关心,一个是有哪些可以实现的可能,一个是每种可能的大小, 前者定义一个事件空间(态空间), 后者定义一个数-概率。
关键这些信息从哪里来呢? 我们如何知道要发生什么? 又如何知道多多大可能发生? -- 历史。
概率论的思维基点其实是: 日光之下并无新事。
我们对未来的预测来源于对过于的经验积累, 而沟通过去经验与未来预测的工具就是概率。所谓一件事发生可能性大小,就是一件事在历史中发生的频率。
当然很多情况下概率也可以通过已知理论用演绎法推得,但是最根本的,还是由经验确定的概率。
概率,我们中学数学都学过它是一个事件出现的频率,但它的含义其实很深很深。因为一个事件出现的频率来自于历史,而概率却用于对未来的预测,因此,概率包含的一个基本假设就是未来和过去的一致性-你要用概率,你所研究的对象要有可重复性。这其实假设了概率所研究的事件具有的某种稳定性,一旦这些一个过程是一个随时间剧烈变化的过程,概率几乎就不能应用。所以这里只能说概率是一种近似,他对于研究那些比较简单的物理过程,如投掷硬币,才完全有效。
所以, 所谓概率空间,只能是一种近似,他是人类现有知识的总和, 我们用它描述已知的未知, 但是却从来无法描述未知的未知-被我们称作黑天鹅的事件,因为真正的未来,永远无法只有已知的可能性(感兴趣的请参看本人旧文-高斯与天鹅)。在大多数时候,我们还是日光之下并无新事,因此,概论的威力依然不可小觑。
有关概率空间的思维,可以立刻灭掉一些看似烧脑实际脑残的题目:
假设你在进行一个游戏节目。现给三扇门供你选择:一扇门后面是一辆轿车,另两扇门后面什么都没有。你的目的当然是要想得到比较值钱的轿车,但你却并不能看到门后面的真实情况。主持人先让你作第一次选择。在你选择了一扇门后, 知道其余两扇门后面是什么的主持人,打开了另一扇门给你看,而且,当然,那里什么都没有。现在主持人告诉你,你还有一次选择的机会。那么,请你考虑一下,你是坚持第一次的选择不变,还是改变第一次的选择,更有可能得到轿车?
回答这个问题的关键即事件空间,在主持人打开门之前,事件空间即车的位置有三种可能,你有1/3 的可能拿到车。当主持人选择打开门的时候, 它实际上帮你做了一个选择,那就是告你某个车库没有车,这时候事件空间发生了变化,因为你的已知变了。如果说以前的事件空间是或者你选择的车库有车(1/3), 或者另外两个车库中的某一个有车(各1/3)。现在的情况呢?被打开的车库有车的概率变为0, 因此你选择的车库没车的情况下车的位置已经变成确定的了,概率为2/3。而原来你车库有车的选项却不受到这一事件的影响(依然1/3概率), 所以你当然要选择换车库。
这个例子第一个说明的道理是概率是主观的,来自于你头脑中的信息。
回过头看, 主持人的举动增加了你对两个车库的信息, 而车是不变的,所以你要根据新的信息调整概率空间。
* 此实例是好的思维方法的力量的典范,如果你没有这个事件空间的角度, 恐怕要做无数的试验了。
条件概率: 现实生活中的一般都以条件概率的形式出现,即给定一定的已知条件,信息我们会得到什么样的概率。对这一大类问题可以引出整个贝叶斯分析理论,将在后续篇章中介绍。
2. 随机变量 :
你投掷筛子,得到6个结果,每种结果有1/6 的可能。你把态空间的种种可能性都用数字表达出来,用一套用轻度装逼的数学语言描述, 就是随机变量。 这个东西包含所有输出的可能性以及相应的概率,这些可能性(态空间)和概率的对应关系我们称之为分布函数。如果态空间是连续的,我们就得到连续的分布函数形式。
分布函数:
随机变量已经包含了两个随机过程研究的核心武器:态空间和分布函数。分布函数是提取随机过程内有用信息的第一手段。分布函数-是在大量数据中提取信息的入口。
随机变量的实现:随机变量可以看做一个实验,你在实验之前,结果是不确定的,你所有的是一团可能性。 当你做完实验,却得到一个唯一的结果,只是预先不可知。
期望: 对一个随机变量,已知其分布函数,可以定义一个期望。这个东西由每个结果的取值和它的可能性共同决定,表达未来结果的加权平均值。
实际中我们可以用实验的方法确定这个数字,就是所谓蒙特卡洛方法,不停的投筛子然后做个统计,你所得到的结果的平均就是期望。(平均值和期望的区别就是第一个来自已有的数据的平均,第二是对根据已有的平均对未来的预测。)
关于期望包含着一种投资世界里的基本思维方式,就是对收益的幅值和风险(概率)一起考虑。经常有一些时候一些出现机会极少而收益特别大的可能性决定了期望,如果你的心脏足够强大,就应该充分考虑这些高风险高收益的可能。
相关性: 对于两个随机变量,你可以定义一个相关性covariance,描述一个随机变量随另一个而变化的趋势。这个函数特别有用,它是现实生活中我们说两个事物相关性的精确表达。
理解这个算式特别简单,这个量就是x和y波动乘积的期望,当两个变量是此消彼长,则为负,共生共荣则为正,若两个过程不相关,则为0.
方差: 上述关系当x=y我们得到方差,方差就是自己和自己的关联函数,当随机变量比较接近正态分布时候它可以描绘波动性的大小。
对于N个随机变量,任意两个随机变量可得到一个covariance,而这样一组covariance构成大名鼎鼎的covariance matrix.
测量分布函数的武器-蒙特卡洛方法:
搞定一个分布函数,笨办法也是最有用的方法就是蒙特卡洛方法。 一般筛子情况下,筛子有6各面, 每个面出现的概率有1/6,但是万一筛子被做过手脚呢? 所以最好的方法还是所谓蒙特卡洛抽样,不停的玩,知道你认为你可以稳定得到每次可能性出现的频率。 所谓笨办法确是最常用的,尤其是随着高速计算机的普及。一些重大的工程, 涉及太多复杂不好确定因素时候,我们就让计算机模拟,设计一系列的蒙特卡洛抽样来求得一些结果。
* 此名来自Monte Carlo 摩纳哥的赌场, 其实赌场里也可以产生一些最厉害的数学思想。
抽样:
在计算机里研究牵扯随机变量的过程最基本的方法就是抽样,抽样就是已知分布函数取得一个随机的结果的过程。我们要在计算机里模拟一个随机过程都是通过抽样来实现的。抽样的成功与否决定这些计算机模拟(simulation)能在多少程度逼近真实。计算机的抽样都是基于最简单的随机数生成器产生的,产生概率均等的均与分布(Uniform distribution)。但是这些“随机数”实际是早已设定好的,因此更准备的被称作“伪随机数”。而对于更加复杂的分布函数的抽样, 则有如层出不穷的算法解决它,比如大名鼎鼎的Markov Chain Monte Carlo (MCMC)方法,将在之后的章节介绍。
第三部分: 什么是随机过程
确定性过程研究一个量随时间确定的变化,而随机过程描述的是一个量随时间可能的变化,在这个过程里,每一个时刻变化的方向都是不确定的,或者说随机过程就是由一系列随机变量组成,每一个时刻系统的状态都由一个随机变量表述,而整个过程则构成态空间的一个轨迹(随机过程的实现)。
一个随机过程最终实现,会得到一组随时间变化的数值(态空间里的轨迹),实践中我们都是从数据结果中推测一个随机过程的性质的。
刚说过概率是建立在可重复性上,是一个理想模型,而建立在此上的随机过程就更是一个理想化的模型,它暗含的是历史可无限重复,然后你把他们收集在一起看一看。我在一开头的说的充满分叉小径的花园是一种比喻,但说的也是你需要站在平时时空(每一个时空包含一种历史的可能性)的角度来看一个随机过程的全貌。
我们立刻发现这是一个超级复杂的问题,因为一个随机过程具有无限多可能性。试想象一个最简单的随机过程,这个过程由N步组成,每一步都有两个选择(0,1),那么可能的路径就有2的N次方个,这个随机过程就要由2^N-1个概率来描述(概率只和为一减掉一个维度),用数学物理的语言就是极高维度的问题。
* 离散的时间序列是清晰表述随机过程的入门方式,虽然更一般的表述是时间是连续的
因此,能否研究一个随机过程的关键就是减少问题的维度-这也是物理的核心思想。
一下讲一下达到这个目的发明的神器:
马尔科夫过程(Markov Processes)
马尔科夫过程,是随机过程中的精华部分,其地位犹如牛顿定律在力学的地位。
对于最一般的随机过程,是无限复杂的,幸好,在我们日常生活中,很多随机过程符合或近似更简单的模型。其中目前一种最有效的框架成为马尔科夫过程. 所谓马尔科夫过程,即随机过程的每一步的结果最多只与上一步有关,而与其它无关。 好比你不停撒筛子,你每一次的结果不会影响未来的成绩。
马尔可夫链(Markov chain):
makov过程用数学语言表述就是马尔科夫链,就像一台熊熊驶过的火车,前一个车厢(上一步)拉着后一个(下一步),向前运行。
如果一个过程是markov过程,这个过程就得到了神简化,你只需要知道第n步是如何与第n-1步相关的,一般由一组条件概率表述,就可以求得整个过程。一个巨大的随机过程,其内核仅仅是这样一组条件概率,而知道了这组条件概率,就可以衍生整个过程。
图: 一个典型的markov过程, 每一个的结果只与上一步相关,我们只需要一组条件概率(箭头)来描述,每个条件概率告你如果态空间中的某一个事件发生,那么从这一点出发, 下一个事件发生的概率。
我们不妨多想一下,如果第n步和第n-1步的关系不是随机的,而是确定的,那我们得到了什么?我们联想到牛顿力学,牛顿力学也是此刻的状态决定下一刻的变化,其本质也是链式法则,通过此刻与此刻最邻近的未来的关系,衍生出整个宇宙的过去和未来, 其灵魂同样是降维。或者说markov就是随机过程里的牛顿法则。
Markov是不是真的是一个历史无关的过程? No! 虽然第N+1步只与第N步有关,但是第N步又包含第N-1步,所以通过链式法则,历史的信息还是可以传递到现在的。
经典表述:
马尔科夫链的核心条件概率表达式就是这台火车链接不同车厢的链条。 如果这个条件概率关系不随时间变化,我们就得到经典的稳态马尔科夫链。它有一个良好的性质,就是当这个过程启动一段时间就会进入统计稳态,稳态的分布函数与历史路径无关。
一个简单的例子: 关于生育偏好是否影响男女比例的问题。
我们知道过去的人喜欢生男孩,往往生女孩子就不停生,直到生到一个男生为止,因此就造成很多一大堆姐姐只有一个弟弟的家庭。我接触过的一些特别聪明的人都会认为这样的行为会影响男女比例。大部分人觉得会造成女孩比例多,少数人认为会增加男孩比例。 实际呢?
一言以蔽之: 不变。 为什么? 生育问题是典型的稳态马尔科夫过程,下一次生育不受上一次生育的影响。 根据马氏过程的特性,你知道历史无需考虑历史路径, 最终的平衡概率只取决于每一步的概率。所以无论你怎么玩,不论是你拼命想生男孩还是女孩,都无法影响人口比例。
但是有一招却是有影响的,就是打胎。 为什么? 答案依然很简单,你改变了每一步的概率。
这就是马尔科夫过程的威力和魅力,可惜人生却不是马尔科夫过程, 因为每一步都高度依赖于过去n步,因此人生是高度历史路径依赖的。
关于马尔科夫过程的进一步理解及几个经典的随机过程范式将在下文讲解。