查看原文
其他

圣塔菲:预测技术进步的统计基础

圣塔菲研究所 南添的求真之路 2022-12-31

重要声明:本文不构成公众号主体“南京望岳投资管理有限公司”的广告、销售要约等宣传推介资料,或交易任何证券、基金或投资产品的建议。转载请注明出处。


你是否惊叹于世界上很多事物都在呈现指数级增长?如果你把整数坐标调为对数坐标,你将会看到一个崭新的世界。这有助于你理解事物增长的速度(斜率)。


整数坐标下的股价走势图


对数坐标下的股价走势图


温馨提示:本文含有较多数学公式,但建议硬着头皮读下去,可重点关注强调部分。开篇先简单聊两句重点。


2012 年,圣塔菲研究所的 4 位学者合著了一篇论文《预测技术进步的统计基础》。在此之前,理论界已经流传一些预测技术进步的规律,比如测集成电路上可以容纳的晶体管数目在大约每经过 18 个月便会增加 1 倍的摩尔定律,飞机产量每累计增加 1 倍,成本价格就会下降 15% 的莱特定律,但是这些假设从未经过严格的统计分析。

 

学者们选取了 62 种技术的历史数据,10 年~ 39 年不等。这些技术可以分为四大类:化学,硬件,能源,还有其他;同时对比了五大定律:

 

  • 莱特定律(1936):因变量是累积产量,成本随累积产量的增长呈指数递减;

  • 摩尔定律(1965):因变量是时间,成本随时间推移指数递减;

  • Goddard定律(1982):因变量是当年产量,成本随当年产量的增长成指数递减;

  • SKC定律(2000):单位成本取决于莱特定律与Goddard定律;

  • 诺德豪斯定律(2009):单位成本取决于摩尔定律与莱特定律。


论文表明,所有的技术表现大致相似:信息技术的增长密切遵循莱特所提出的飞机产量增长模型 ,诸如啤酒生产、或者离岸天然气管道同样遵循莱特定律,只是增长速度较慢。


此外,几个函数的表现类似,因为参数间有关联:累积产量随时间指数增长,累积产量增长的原因也与每年当期产量增加高度相关,累积产量增长导致单位成本下降。

 

最不靠谱的是诺德豪斯定律,尽管提出这一定律的经济学家后来获得了诺贝尔奖,研究能源技术的人士应该看看他的论文。

 

最靠谱的是莱特定律。莱特是一位造飞机的美国工程师,1936 年发表了一篇论文《影响飞机成本的因素》(不过本文太枯燥,便不再翻译,后续会专门解释莱特定律)。莱特总结出一个公式:飞机产量每翻一倍,生产一架飞机的劳动时间下降 15%。

 

由于半导体而广为人知的摩尔定律,短期内要比莱特定律靠谱;但从长期来看,莱特定律更靠谱。但讽刺的是,在 62 项技术中,用摩尔定律预测单位成本下降误差最大的技术,正是晶体管。学者们将晶体管的数据代入 6 种定律,真实数据的范围为 1969 年至 2005 年;预测起点是 1974 年,基于 1969 年至 1973 年的 5 年数据。然后将预测值与实际值之间误差制成热力图)


纵轴自上而下、横轴从左往右年份变大,意为最久远的数据对最近的预测准确度;颜色亮度越高,说明误差越大。

历史数据表明,不同技术均强烈且稳定地维持某种惯性的指数增长,所以摩尔定律往往有效;但当某种力量改变累计产量变化的时间时,摩尔定律将失效,莱特定律仍然保持有效。因此,摩尔定律,可以看作是莱特定律的一个特例。学者 Sahal 指出:成本指数下降和产量指数增长的结合将使摩尔定律和莱特定律难以区分。


例如,锂电子电池作为 3C 消费的电力来源时,有自身的摩尔定律和莱特定律曲线,到 2005 年由于手机及笔记本电脑需求基本饱和摩尔定律失效。但当电动汽车需求爆发时,对动力电池的需求快速上升,导致原摩尔定律失效,但莱特定律仍然有效。(这个案例的详细阐释,可点击标题下方标签#青训营课前预习 之《摩尔定律未死,莱特定律万岁》)


基于摩尔定律对锂电池成本的预测失效了


莱特定律依然能够有效地预测锂电池的成本下降


莱特定律如此重要,以至于被写进了方舟资本(ARK Invest)的投资理论基础。方舟资本的研究总监 Brett Winton 写了一篇《摩尔定律未死,莱特定律万岁》(可点击标题下方标签#青训营课前预习),表明莱特定律不仅在信息技术的硬件领域,甚至在新能源领域也有明显的特征。诸如电动汽车、锂电池、光伏,大致都遵循了莱特定律。


今天,我们先来学习这篇《预测技术进步的统计基础》,然后带着困惑等待后续的更新吧,我们会介绍关于莱特定律和摩尔定律的信息和认知。

https://www.santafe.edu/research/results/working-papers/statistical-basis-for-predicting-technological-pro




摘要

预测技术进步引起了工程师、决策者和个人投资者的极大兴趣。人们已经提出了几个预测技术进步的模型,但是这些模型的表现如何呢?西奥多·莱特(Theodore Wright) 于 1936 年提出的一个初步假设是:成本降低是累积产量和的幂函数。另一个假设是摩尔定律,一般将其概括为技术随着时间的推移呈指数级增长。戈达德、辛克莱尔等人和诺德豪斯提出了其他替代方案。但这些假设从未经过严格的统计分析。


我们利用 62 种不同技术的成本和生产量的新数据库(这也是迄今为止最全面的数据库,今天的数据库已经扩充到 135 种)测试了 6 种不同理论模型对未来成本的预测能力。我们的方法涉及开发一个统计模型进行归回分析,以对理论模型的表现进行排序。莱特定律的预测结果最好,而摩尔定律也差不多。


我们发现了一个以前未被观察到的规律,即产量往往呈指数增长。正如 Sahal 最初指出的那样:成本指数下降和产量指数增长的结合将使摩尔定律和莱特定律难以区分。我们首次展示了这两个模型在数据观察中的表现几乎是相同的。


结果表明,技术进步具有可预测性,对数误差的平方根与预测区间呈线性增长,通常增长率为每年 2.5% 。这些结果对于技术变革的理论,对于减缓气候变化的候选技术和政策的评估具有重要意义。



引言

本质上讲,创新是新的、意想不到的,因此可能天然地不可预测。但是,如果在技术创新中存在一定程度的可预测性,那么理解它可能会产生深远影响。这样的知识可以产生更好的经济增长理论,并为工程设计、公共政策设计和私人投资提供更有效的策略。在减缓气候变化领域,实现特定温室气体浓度稳定目标的成本估计对于关于未来技术进步的假设非常敏感。


关于技术进步有许多假设,但它们都对吗?如果对的话,哪一个假设提供了更好的预测结果?在这篇论文中,我们第一个提出了严格意义上的以统计比较得出的建议。


当我们考虑技术进步时,许多人第一印象是计算机,或者更广泛地说是信息技术。引用比尔·盖茨(Bill Gates)的这句话抓住了一个普遍观点:“指数增长是罕见的——我们都被 IT 模型误导并且深深地困惑了。


但是正如我们在本文所展示的,在描述随着时间推移的增长函数之形式而言,信息技术并不特殊。虽然信息技术显示出快速的进步,但是同样地,许多技术也显示出指数级增长。


事实上,我们在本文研究的所有技术表现大致相似:信息技术的增长密切遵循莱特所提出的飞机产量增长模型 ;诸如啤酒生产、或者离岸天然气管道同样遵循摩尔定律,只是增长速度较慢。


用单一指标来量化一项技术的发展是不可能的。例如,描述计算机的属性是速度、存储容量、大小和成本,及诸如美学等其他无形的特质;一款汽车可能更快,而另一款则更便宜。在本研究中,我们聚焦于一个常见的性能指标:经通胀调整后的“单位”成本。这个指标之所以适用,是由于它可以方便的对比许多不同的技术。尽管单位的性质可能会随着时间的推移而改变。例如,现代集成电路中的晶体管与过去的离散晶体管相比,可能非常大的差异。


此外,随着时间推移,相较于其他性能指标的程度而言,成本的重要性可能会改变。尽管如此,我们仍使用单位成本的变化作为技术进步的衡量指标,以便于大量可供观测的数据中进行模型间的比较。这种粗糙的方法虽然增加了预测的难度,但特别令人惊讶的是,我们仍然观察到内在的共同趋势。



分析

我们检验了文献中出现的六种不同的假设,对应于以下六种函数形式:


注意比较两种莱特定律的区别


因变量 yt 是某项技术按通胀调整后的以美元计算的单位成本,自变量是时间 t(以年为单位) ,年产量是 qt ,累积值产量是 xt=            ,误差项 n (t) 。常数 a, b, c 的含义在每个模型假设的预测值中均不相同。


这里的摩尔定律是一种广义的说法,即特定技术的成本 y 随着时间呈指数递减,即:



其中常数 m > 0,b > 0。(假设在整个过程中 t > 0,并且将方程(1)中 a = -m 、b = log B 进行等量替换)。摩尔定律假定技术进步是不可阻挡的,也就是说,技术进步取决于时间,而不是研发和技术进步等可控因素。


编者注:摩尔定律只是在技术快速发展阶段的局部情况,其本质还是系数较大的莱特定律。换句话说,并不是时间带来了摩尔定律,而是在这段时间中晶体管产量也迅速上升,带来了晶体管的单位成本快速下降。看似是跟随时间,其实是跟随产量,莱特定律才是根本原因,摩尔定律只是表象。


相比而言,莱特定律假设成本下降的速度取决于累积产量,也即:



其中常数 w > 0、 b > 0,设函数中 a = -w 、b = log B,莱特定律通常被解释为“在实践中学习”。其基本思想是:累积产量代表着投入水平,因此,我们制造的越多,我们从中学到的也越多,知识积累不会消失。


编者注:莱特定律,累积产量与单位成本的关系最有解释力,表明累积产量扩大的诸多投入才是导致成本下降的最终原因,通过学习、优化降低单位产品的人工成本才最终导致产品单位成本下降。


另一个假设是由戈达德提出的,他认为技术进步纯粹由规模经济驱动,并假设:



其中常数 s > 0、 b > 0,设函数中 a = -s 、 b = log B 。


编者注:戈达德定律,剔除历史产量累计值,仅考虑当期产量表现为规模经济,也就是当年产量越大成本越低,其表现与实际略有偏差,且在短期预测表现中较差,表明除规模效应外还有其他原因(学习效应)。所以并不是扩产马上就能获得成本下降的,成本下降需要不断积累产量(也就是投入增加导致规模效应)。


同时,我们还考虑了函数中包含三变量的情况:诺德豪斯将莱特定律和摩尔定律相结合,辛克莱尔、克莱珀和科恩将莱特定律和戈达德定律相结合。为严谨性起见,我们还测试了莱特定律滞后一年的有效性。请注意这些方法实际上预测的是不同的模型: 摩尔定律预测一定时间的成本变动,莱特定律则预测给定累积产量的成本变动,戈达德定律预测给定年产量的成本变动。


我们应用由 62 种不同技术组成的历史数据测试这些假设,这些数据大致可以归为四大类: 化学,硬件,能源,和其他数据的时间跨度从10年到39年不等,抽样频率为每年一次。这些特定技术的选择主要基于可获得性——我们将可收集的所有数据建成该类数据库中最大的一个(详见论文附录)。


从左到右依次是摩尔定律、Goddard定律、滞后的莱特定律、莱特定律、SKC定律、诺德豪斯定律;自上而下代表是不同的技术,一共有 62 行(此处只贴一张图),图中依次有腈纶、丙烯腈、铝、氨、苯胺、啤酒、苯、双酚A、己内酰胺、二氧化碳。


为了比较每个假设的表现情况,我们使用后验方法,这是一种交叉检验方法。我们假设从时间 i 开始,利用假设模型(函数形式为 F=)及对应的数据集 d,对时间 j 的结果进行预测,其中j > i。以基于时间 i 开始的所有参数代入每个函数中,对其预测结果采用普通最小二乘法进行回归。


这里进行了一次对数转换,目的是将对数问题转化成线性问题进行回归。同时建立了一个指标直接关注预测误差。


这里的预测误差项 e 等于对数真实值 - 对数预测值,即:



对所有数据集和所有假设进行预测分析(并制作成可视化的三维误差图,如附录所示)。对于莱特定律,随时间推移的的误差情况如图所示:


莱特定律模型为例展示随时间推移的误差增长情况。以年为单位,将每个数据集按函数值与实际数据取对数的误差项作图。例如,10^0.5的误差表明预测值是实际值的三倍。时间最长的数据集是: 原料铝 (绿色) ,原料镁(深蓝色) ,DRAM (灰色)和晶体管(红色)。



建立统计模型来比较不同的模型假设是复杂的,因为在较长时间尺度内观察到的误差往往大于在较短时间尺度内观察到的误差,而且误差随函数的形式与时间相关。在比较了许多不同可能性之后(如附录中所详细讨论的),我们确定了以下方法:由于指数函数最能有效反应这些数据的方差结构特点,因此基于指数与对数的变换关系,将误差项的平方根取对数变换。在混合线性模型中,采用极大似然估计方法估计线性模型系数,用以下函数来反应后验误差项 horizon = 目标值 - 初始值 = j - i。


我们使用以下函数形式建模进行分析:



‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍其中‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍是预测误差项的平方根。参数 αf 和 βf 取决于函数形式,因为在某种函数形式下,它们对所有数据集都是相同的,所以被称为恒定影响参数。参数 αf 代表截距、βf 代表斜率。


参数 ad 和 bd 是依赖于数据集的随机干扰项,因为它们不是独立存在的,而是作为数据集特定时间的随机误差之累积。ad 和 bd的数值参考每个数据集 d 的特性,分别是对平均截距 αf 和斜率 βf 的调整项。为避免添加 62 个 ad 参数及 62 个 bd 参数,我们将该数组视为以

 为均值、以矩阵为方差—协方差的二元正态分布的二维随机向量。


该方法可大大减少参数的数量。将特定数据集参数调整为与平均值的随机偏差,只额外引入了 3 个参数,而不是 2*62 = 124 个。这种简洁的方法在应用保持参数的数量有限情况下,最小二乘法进行回归分析成为可能。


最后,我们引入作为衡量与实际趋势偏离的残差项。这是一个独立于随机向量的高斯随机过程,均值为 0, 给定 ad 和 bd,方差为         乘以对应数值:



我们还定义了每个误差项的指数函数模型,作为两个时间相关性的衡量指标(对应于每个数据集和模型的组合,见附录信息) 。定义取值为正的参数 ρ,及另一个取值为正的小数参数 η,相关参数之间的量化表达式如下:



其中每个错误项均被视为相互独立的两个 δ 函数的克罗内克积。


以函数(7)和(8)来观测时间序列数据从 i(回溯起点)推移到 j(回溯终点)的异方差(随着对数预测误差的增加而增加的方差)。使指数函数成为观测最佳拟合结果的可能方案。注意,此处应使用曼哈顿距离(绝对距离之和)而非欧式距离(距离平方的根之和)度量 ,因为它提供了更好的判断结果。


使用这个统计模型,我们比较了五种不同的模型假设(由于预测表现不佳,我们从样本中移除 Nordhaus 模型。该模型给出了较好的样本内拟合值,但在预测样本外预测值时,会产生较大且不一致的误差)。相较于 62 个数据集所需的 62*5*2 = 620 个参数,本方案每个模型只有 16 个参数: 5*2 = 10 个 αf 和 βf,3 个二元随机向量的协方差矩阵参数(ad,bd),3 个方差—协方差项而成的残差参数



结果及讨论

我们将 37745 个不同的数据点的误差项采用最大似然函数法分析。我们将 5 种理论假设的预期误差 rfij = αf + βf (j-i) 作时间序列回归分析,并将结果绘制成图,如图 2 所示。虽然这 5 种理论假设的表现各有不同,且差异并不显著。截距集中分布于 0.16 < αf < 0.19,斜率集中分布于 0.024 < βf < 0.028 的区间。并且,所有的理论假设都显示出巨大的初始误差,并随时间每年增长大约 2.5%。


     

该误差模型让我们可以对每个模型假设进行两两比较分析,以确定是否有可能在统计上产生显著差异,从而拒绝或支持一个模型假设。比较系基于 Eq(6)的截距和斜率误差模型。表 S1和 S3 列出了参数估计值,表 S2 和 S4列出了相应的概率值 p。例如,在 95% 的置信区间内,Goddard 模型的截距明显高于其他任何一个,SKC 的斜率明显大于 Wright、时间滞后的 Wright 模型和 Goddard 模型。


至于斜率,倾向于支持 Wright 的假设,同时摩尔定律接近于被拒绝的边缘。图 2 清楚地表明了基本结论:Goddard 在短时间内的预测能力较差,而 SKC 在长时间内的预测能力较差,Moore 定律仅次于 SKC。


因此,我们得到了令人惊讶的结果,几个模型的大多数表现都非常相似,模型大多数情况下都是等价的。虽然差别不大,但我们可以将 Goddard 模型排除在短期预测之外的事实表明:累积产量中存在着年产量所不包含的信息,并且表明除了规模经济之外,还存在着学习效应。


但是 Goddard 模型并没有那么糟糕的事实表明,大部分的可预测性来自于年产量,这表明规模经济依旧扮演了很重要的角色(在我们的数据库中,在年产量增长时技术很少出现显著衰退的情况, 这个方面可以给予 Goddard 模型提供支撑)。我们认为 SKC 模型在长时间内表现更差,因为它有一个额外的参数(既包含当期产量,又包含前期累计产量),使其容易过度拟合。


尽管摩尔定律的表现略逊于莱特定律,但考虑到他们在经济学解释上的明显差异,令人惊讶的是他们的表现如此相似。Sahal 最先提出了一个根据摩尔定律对莱特定律进行简单解释的观点,他指出:如果累积产量呈指数增长,即累计产量是时间的指数函数。

    

那么方程 (2) 和 (9) 之间抵消 t,函数就变成了 Wright 定律的形式,也就是方程 (3) ,w = m/g。事实上,当我们观察产量和时间的关系时,我们发现几乎在每一种情况下,累积产量都随着时间大致呈指数增长。


如图 3 所示,该图展示了三个具有代表性的例子,其均为累计产量及成本以时间为函数的关系。图 3 还展示了 62 个数据集 g 和 m 拟合的 R^2 值的直方图,其指数函数的拟合效果为:从非常好到相当差,但当然这些是短时间序列,其中一些噪音太多。


左边是价格,右边是产量,两者呈现一增一减的关系。


我们在图 4 中对每个数据集 d 绘制 wd 的测量值与计算值(w ^ d = m / g )进行测试。这些值紧密地沿着同一条直线分布,表明 Sahal 的猜想正确。



数据集间的差异可以通过绘制 ad 和 bd 的散点图来形象的表达,如图 5 所示。除一个数据集外,所有数据集均在 95% 置信区间内,表明(ad,bd)的分布与二元正态分布假设一致。截距在大约 0.10<ad<0.17 的范围内变化,斜率则分布于 0.018<bd<0.015。


因此,对不同数据集相应的对数预测误差的变化与所有数据集的平均误差相当(如图 5 所示),并且与假设理论定律之间差大约一个数量级(如图 2 所示)。



为了展示我们方法的实操性,我们对户用级别的分布式光伏系统(PV)的发电成本进行了预测。图 6 显示了预测值(实线)和预期误差(虚线)。2020年的预期发电成本为每千瓦时 6 美分,范预测围为(3-12),2030 年为 2 美分,预测范围为(0.4-11)。目前最便宜的替代品——煤炭燃烧的火力发电成本约为 5 美分/千瓦时。与光伏相比,火电预计不会降低成本,而且如果未来对二氧化碳排放进行处罚,成本可能会增加。


           

我们在这里提出的关键假设是,某项技术随时间推移的成本变化曲线是类似的,只存在特定技术间的参数差异。该假设允许我们将任何给定的技术看作是从整体中抽取出来的其中一项般进行预测。这意味着我们可以采用不同技术的数据做出更好的预测,最重要的是做出误差估计。这在研究技术发展趋势时特别有用,因为可用数据有限。当然,我们必须在做预测的时候提高警惕,就像尼尔斯·波尔(Niels Bohr)说过的“预测是非常困难的,尤其是对未来的预测”。


我们的分析表明:降低成本和增加产量似乎是密切相关的,而且莱特定律和摩尔定律表现极其相似。


然而,我们值得强调的是:它们仍旧有所不同。例如,考虑如下场景:当光伏产量的指数增长率突然增加,导致产量倍增时间减少大约 3 年。在这种情况下,莱特定律预测成本下降的速度将会增加,而摩尔定律预测成本下降的速度将不变。区分这两个理论假设,需要有足够数量的例子说明累积产量没有呈指数增长,而我们目前的数据库并不包含这些例子。


历史数据表明,在不同类型的技术中,指数增长率呈现强烈的保持不变的趋势。然而,最近的工作已经证明了信息技术在长时间跨度上的超指数级进步,这表明摩尔定律只在短时间跨度上的表现近似合理。来自信息技术领域的这些证据以及本文介绍的结论表明,在更长的时间范围内,摩尔定律的表现可能明显比莱特定律差。




☉ 报名商业思维青训营

☉ 日常关注 B 站直播

每周六晚上 19:30

UP:南添的求真之路

周一~周五晚上 20:00,一起探索求真有爱的商业世界。
点击服务号「南添的求真之路」右下角「订阅」,你将准时收到更新提示。欢迎点赞、评论、分享。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存