查看原文
其他

黑天鹅建模的正确姿势

石川 川总写量化 2022-05-14


1

风险控制和尾部建模


今年全球金融市场不太平,从英国脱欧到Trump当选美国总统再到意大利公投,“黑天鹅”事件频出,就连美联储也跟着添乱,嚷嚷了一年加息、故意扰乱市场对美国经济数据的解读。未来两年,潜在的黑天鹅更是一个接一个。




在这种背景下,风险控制再次回到人们的视线中。在金融领域,风险控制的目的是为了计算极端黑天鹅事件对金融资产造成的潜在损失(负收益率)的可能性以及冲击的大小。


先来看一个分布。下图为上证指数在过去15年内日收益率的分布。我们计算出日收益率的均值和标准差,便可以得到一个基于该均值和标准差的正态分布。下图比较了收益率的直方图和该正态分布。




不难看出,上证指数日收益率的分布表现出明显的尖峰和肥尾特点,尤其是在负收益率部分。比较日收益率分布和标准正态分布的分位图(下图),也可以清晰地验证这个结论。肥尾意味着上证指数实际发生极端收益率(从上图来看,尤其是极端跌幅)的概率要远远大于正态分布对应的概率。换句话说,如果算出收益率的均值和标准差,然后构建一个正态分布来近似描述日收益率分布,这会造成很大的误差。




除了尖峰、肥尾的特点之外,另一个困扰“黑天鹅建模”的问题是,发生极端亏损(真正的黑天鹅)的历史样本太少了。比如说,我们想回答“上证指数每十年一遇的日收益率最大跌幅是多少”这个问题,回看上证指数过去20几年的历史,我们仅仅有可怜的2个样本点,根本无法根据它们构建有效的模型。


那么应该怎么办呢?在统计学上,广义极值分布(Generalized Extreme Value Distribution)可以用来对极端亏损建模。



2

极值建模



假设随机变量Xi代表某投资品的负收益率(亏损),它满足某未知分布F(x) = Pr{Xi≤x}。在下文中,我们用负收益率的绝对值代表亏损的大小(换句话说,Xi的取值为正数)。在这种描述下,当Xi的取值在其分布的右尾(right tail)时,便意味着该投资品发生了极端的亏损。


假设不同时间的亏损Xi是独立同分布的,并令Mn = max(X1, …, Xn),即Mn是n个样本中最坏的情况。广义极限分布理论解决的问题就是对Mn分布的建模。有了Mn的分布,我们就可以轻松的回答上面诸如“上证指数每十年一遇的日收益率最大跌幅是多少”的问题。


根据独立同分布的假设,我们可以写出Mn的CDF为:




由于分布F是未知的,Fn自然也是未知的,而经验分布函数对与Fn的估计也是非常差的。但是,我们可以根据Fisher-Tippet理论(Fisher and Tippett 1928)来渐进逼近Fn,并以此得到Mn的分布。特别的,Fisher-Tippet理论证明,将Mn标准化后,即Zn = (Mn – μn) / σn,Zn的分布收敛于形式如下的广义极限分布:




因此,只要我们有足够多的原始负收益率样本数据Xi,我们可以用下式求出极端亏损Mn的分布:




在实际使用中,广义极限分布H的参数(ξ, μ, σ)可以通过极大似然估计(maximum likelihood estimation)得到。为了估计这些参数,我们必须有足够多个Mn的样本。为此,我们可以将总长为T期的历史数据等分成单位长度为n的m个区间。每个区间中的最大亏损便是Mn的一个样本。这样我们就可以得到m个样本。这样,便可以根据这些样本得到广义极限分布H的参数的估计。Embrechts et. al. (1997)给出了详细的数学推导。



3

阈值外数据建模



在风险管理中,在险价值(Value at Risk)是人们常说的一个概念。比如,当我们说1%的日收益率的VaR = 6.8%,它的意思是,我们的目标投资品(或者投资组合)在当天有1%的概率可能产生超过6.8%的亏损。在给定的概率下,VaR越大,投资品的风险越大。


然而,如果想计算VaR的大小,上一节中对极值分布的模型并无法发挥作用。这是因为在计算VaR时,我们必须对亏损分布的右尾进行建模、而不单单是关注某一个极值(注意,在本文中我们用亏损的绝对值来描述亏损的大小,因此亏损都是正数,所以这里我们是对分布的右尾建模)。为此,我们可以采用广义帕累托分布(Generalized Pareto Distribution)


和上节一样,我们用Xi来表示某投资品的一系列亏损,并假设它们独立且满足某未知分布F。同样的,定义Mn = max(X1, …, Xn)。假设u为某一个给定的亏损阈值。在所有这些Xi中,我们感兴趣的是那些大于u的样本,即那些亏损超过阈值的样本点,我们希望用它们来对Xi分布的右尾进行建模。超过给定阈值的亏损部分,即Xi – u>0的部分,可以由如下条件概率表示:



Embrechts et. al. (1997)证明,如果亏损Xi的极值Mn收敛于上节介绍的广义极限分布H,那么存在一个u的函数β(u),使得Xi-u满足如下形式的广义帕累托分布G:




在实际应用中,如果我们想对Xi的右尾建模,只需确定阈值u。然后在Xi的所有样本中找出所有大于u的样本(注:我们用Xi的绝对值表示亏损的大小,所以亏损在上述数学表达式中是正数),将这些满足的样本各自减去u后得到超过u的部分,然后用这些数据拟合广义帕累托分布G,G的参数由极大似然估计得到。

 

广义帕累托分布G的形状随着形状参数ξ的不同而不同。特别的,当ξ = 0时,G就化简为指数分布。我们以过去15年上证指数日频的负收益率样本为例,取阈值u=2.65%(即考察日收益率亏损超过2.65%的尾部分布),得到了G的参数。其中形状参数的取值非常接近0。下图为拟合得到帕累托分布和同比例的指数分布对比超额亏损的直方图的结果。可以看到红色的帕累托分布和绿色的指数分布非常接近。




此外,我们也可以用超额亏损和标准的指数分布放在一起做分位图,得到的结果如下。结果显示分位图近似的满足线性,说明超额亏损的分布和指数分布十分接近。




利用超额亏损对尾部分布建模后,我们便可以方便的求解在险价值。



4

在险价值



上一节曾经说过,在险价值描绘的是投资品在某一个指定的概率下亏损程度的阈值。在我们的定义下(即我们用正数来代表亏损的大小),在险价值就是某一给定概率下亏损Xi分布中右尾的某一个分位数。换句话说,只要根据给定的概率求出分位数,它的值就是这个概率对应的在险价值。


因此,通过广义帕累托分布G,我们便可以简单的推导出在险价值的公式。假设1 – q代表我们考虑的概率(比如我们想知道5%的概率对应的亏损,那么1 - q = 0.05),则其对应的在险价值为:




其中,n是亏损样本的总个数,k是超过u的亏损样本的个数。u是对应的阈值,它可以由q = F(u)求出。在应用中,(n-k)/n可以作为对F(u)的估计。因此,对于给定的概率1 – q,计算在险价值的步骤为:


根据q和q = (n-k)/n求出k;

2 根据k求出u,即在所有亏损的样本中,找到对应的阈值u,使得满足Xi大于u的个数为k;

用上一步找到的Xi – u建模,得到广义帕累托分布;

将参数带入在险价值的公式中,求出在险价值。


由于在险价值关注的往往是5%甚至1%的亏损阈值,它们对应的是亏损分布中非常靠尾部的那些样本,因此只有当n足够大时,我们才可能得到足够多的超额亏损来建模。可惜的是,在这方面中国A股的年份太短了。


即便如此,我们仍然通过下面简单的实验来说明如何计算在险价值。这里我们考虑标普500指数(从1930年至今)和上证指数(从2000年至今)。此外,为了增加样本个数,我们考虑的在险价值对应的概率为10%,而非极端的5%或者1%。


对于标普500,我们用每15年的数据来滚动建模,得到日收益率在10%概率下的在险价值。作为比较,我们用日收益率均值和标准差对应的正态分布同样求出10%概率下的在险价值。结果如下图所示。




上图说明以下几点:


由于收益率存在明显的肥尾效应,正态分布严重低估了在险价值(绿线持续的在红线之下)

在1929年股灾之后的有一段时间,在险价值都在高位,这是因为计算的样本中有大量的高亏损样本;

进入21世纪以来,在险价值有两次明显的跃升,分别对应着2000年的.com泡沫和2008年的次贷危机。


同样的,我们对上证指数建模。由于数据年份太短,我们用每10年的数据来滚动建模。结果如下所示。同样的,正态分布建模严重低估了在险价值。此外,由于上证指数比标普500有更加明显的肥尾,因此正态分布对潜在亏损的低估更加显著。此外,2010年到2015年股灾之前,10%概率对应的日收益率在险价值并无太大波动;股灾之后,在险价值明显上升。




我们可以用更短的时间(即更少的样本)对上证指数进行滚动建模。但是样本少一定会带来建模的误差。下图为我们使用5年窗口进行滚动建模的结果。结果表明从08年股灾开始后一直到14年,上证指数的风险都非常大(注意,正态分布建模无法很好的描述在险价值的变化,且存在严重的低估)。在最近两年,随着15年股灾和今年1月份熔断引发的二次灾害,在险价值出现了两次迅速的蹿升。





5

结语



做投资时,如何强调风险控制都不过分。然而,做好风控的前提就是能用正确的数学手段对其量化。为了控制风险,有人刻意限制仓位,有人“把鸡蛋放在不同的篮子里”。然而分散投资不完全等价于分散风险“把鸡蛋放在不同的篮子里”不如“把鸡蛋放在一个篮子里,然后看好这个篮子”。从这个意义上说,对亏损的正确建模格外重要。



参考文献

Embrechts, P. C. Kloppelberg, and T. Mikosch (1997). Modelling Extremal Events. Springer-Verlag, Berlin.


Fisher, R. and L. Tippett (1928). Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample, Proceedings of the Cambridge Philosophical Society 24, 180-190.




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存