FinTech公开课第21讲:大数据与机器学习在金融领域中如何应用?
中国人民大学金融科技研究所(微信ID:ruc_fintech)联合中国人民大学国际货币研究所,邀请业界、学界、和监管层专家授课,分享真知灼见。
美国伊利诺伊大学香槟分校商学院金融系叶茂副教授担任第二十一次公开课的主讲嘉宾,就“金融大数据与机器学习”进行讲解。
以下为演讲实录
今天我所演讲的主题是“金融大数据”。这个主题很有挑战性,因为其中包含的很多内容目前还没有清晰明确的定义。
金融大数据的定义
怎样在经济学和金融学上定义大数据?我认为有以下三个维度:
(1)大数据量。说到大数据,首先想到的就是它具有大的数据量,这是大数据最基本的特征。
(2)高维度。大数据的高维度意味着,相对于样本规模而言,数据中有非常多的变量,有时变量的数量甚至会大于观测值的数量。
(3)复杂结构。我处理的大部分数据都是面板数据(行列形式的数据),而现在有很多数据是非结构化的,比如卫星传感图像、社交媒体记录、信用卡交易数据等等。
大数据量
定义大数据很难,但是定义小数据是比较容易的。为什么会存在小数据集?原因主要有两个,有些数据集小是因为其样本总体规模小;但有些数据集小是因为我们对数据进行了筛选,在这个过程中缩小了数据规模。例如,有时我们选择减少数据包含的样本;有时我们从很多变量中只选择一部分变量;有时我们仅从宏观整体层面对微观经济活动进行描述;有时我们只观察某一个时间段内的经济活动。这些过程都减少了数据的样本规模,目的是生成便于管理的数据。
大数据和小数据最大的差距不在于量大,而在于取样本的过程中是否产生了选择性偏差。
举个例子,下图是纽约证券交易所的证券交易报价数据。这是一个小数据集,它包含了所有证券买卖中上报至监管机构的交易及报价信息(交易层面的数据),文件大小是每天25GB。
为什么说它是小数据集呢?因为如果提交订单后又取消,交易没有被执行,这些信息包含在订单层面的数据集,因此订单层面比交易层面包含的数据更大更全。下图是一个来自纳斯达克股票交易所的订单层面的数据。
我们曾研究过,在纽约证券交易所的证券交易报价数据中是否存在选择性偏差?通过这个研究有两个层面的思考。第一是技术层面:超级计算机可以帮助我们克服数据规模大的难题。第二是经济学层面:首先是关于现阶段的法规政策的问题,机器学习和大数据的到来已经将机器交易者带入了交易市场,我们是否应该根据机器交易者的交易行为来更新和修改一些过去为人类交易者设计的交易规则?其次是关于学术研究的问题,在其他“小的”数据集中也可能存在选择性偏差。
高维度
高维度,即数据里变量个数大于样本量的情况。
举个例子,在股票市场中,当研究以分钟为频率的交易数据时,就遇到了高维度的挑战。其他股票的前期收益率可以用来预测某只股票的下一期收益率。在我所进行的研究中,股票样本集是纽约证券交易所上市的约2000个股票,每一分钟得到一个观察值。如果用最小二乘法(OLS)进行回归分析,有2000个解释变量(约六个交易日的观测数据),因此不能作出有效预测,可以用机器学习技术来解决这个问题。
机器学习和统计有什么不同?传统统计方法的第一步是通过经济学推理来选择解释变量X;第二步用统计方法估计X是否是一个好的解释变量。而机器学习是将统计同时运用在X的选择和估计过程中,所以通过机器学习可以使用大量的X,并且可以运用更为灵活的函数形式。
机器学习有两个基本特征:第一是交叉验证,目的在于最大化样本外预测能力,较少关注因果推理;第二是运用正则化方法,即对复杂模型施加惩罚项以避免过度拟合的问题。
机器学习可以从两个层面进行分类:第一是函数形式层面,可以分为线性模型、回归树模型或者神经网络模型;第二是正则化的类型,可以分为LASSO、岭回归等模型。
我和同事Alex Chinco和Adam Clark-Joseph曾做过一项研究,发现使用LASSO模型得到的交易策略结果比使用S&P500更好。我们发现了4个结果用以解释其经济意义。第一,LASSO通常会忽略收益率小于2.5%每月的预测变量,而许多以周或月为交易频率效果很好的预测变量不能在短期交易频率产生这样高的收益;第二,LASSO所选择的以分钟为交易频率的预测变量中有95%会在14.2分钟内失去预测能力;第三是稀少性,LASSO平均只会用12.7个变量作为预测因子;第四,大数据可以在新闻发布前发现相关的信息。
在交易这个研究领域,有三个相关问题值得讨论。第一,是否可以将LASSO这个机器学习技术应用在其他交易频率范围的研究?第二,是否可以应用其它正则化形式的机器学习技术?第三,是否可以应用其他函数形式的机器学习技术?
高维数据研究的挑战:一是技术层面,利用机器学习技术来处理高维数据;二是经济学层面,与解决大数据问题相比,寻找经济学解释是更难的挑战。
复杂结构
按照数据源的不同,将复杂结构数据分为三种类型:第一类是个人生成的数据,比如社交媒体、产品使用评论、网页搜索记录等;第二类是商业贸易和政府文件产生的数据,比如超市扫描仪记录、美国证券交易委员会文件等;第三类是传感器生成的数据,比如卫星传感器、气象或污染传感器等。
当处理复杂结构数据时,有两个挑战。第一个是技术层面,如何从非结构化数据中提取信息。有两种方法,一是找个数据提供商,二是寻求跨学科的合作。第二个挑战是经济学研究层面,是否可以为经济活动提供独特的描述变量,是否能够帮助检验经济学理论。比如用推特粉丝人数作为代理变量,构建一个信息扩散速度的模型。在通过社交媒体预测市场情绪从而进行交易的研究中,我们提出两个问题:一是机器是否反向地与人们的行为偏差进行交易?二是机器交易的发展是否让市场变得更加有效了?这是非常有趣的可以研究的经济学问题。
大数据催生新的经济理论
大数据不仅仅只是实证现象的集合,它还可以促进新经济理论的产生。
举个例子,高频交易者的交易速度非常快,交易频率甚至可以达到百万分之一秒乃至十亿分之一秒,是什么导致交易者在交易速度上的竞争?第一个原因是交易价格的非连续性,第二是监管规则。
我提出一个假设:高频交易者会为低价格的股票提供更多的流动性,因为1分钱的报价最小变动单位对于低价格的股票影响更大。通过交易型开放式指数基金(ETF)的一些特点来识别因果关系。需要分析的数据总共大约有十万亿字节,因此面临大数据问题。研究发现,在非高频交易者比高频交易者具有价格优势的情况下,非高频交易者报价能够给出一个更优的价格。
作为经济学家,需要用理论对上述结果进行解释,我们提出了一个模型。以前的研究认为市场上只有两种交易者:一类是计算机交易者,一类是人类交易者。但我认为还存在第三类交易者:半人半计算机交易者,我们将这种交易者称为BATs (Buy-side Algorithmic Traders,买方算法交易者),指人来做投资决策,机器算法执行决策,交易速度要比人类交易者快,但又比高频交易者慢。
机器和机器相互作用为研究经济学理论提供了新的机遇。如果我们能发现机器行为背后的经济学机理,就可以进行很好的预测,因为机器不会受到情绪等未被编码的因素的影响。
研究结果也产生了政策上的启示。例如将最小报价变动单位从1分钱提高到5分钱,我们预测高频交易者的数量会增加。
上述研究对未来学术研究的方向有很大的启发。在金融生态系统的一端,是交易频率小于4个月的短期交易者,另一端是交易频率在百万分之一秒到十亿分之一秒的高频交易者。对于这两者中间的交易者的研究目前相对缺乏,例如:一是半人半机器交易者,以毫秒或秒为频率进行交易;二是使用机器学习技术的交易员,交易频率从几分钟到几个月不等。
结语
总结大数据的研究策略如下:首先对大数据进行分析,然后构建新的理论,新的理论帮助我们对未被挖掘和研究的领域进行分析,再进一步产生新的实证预测、政策启示,甚至激发我们发现新的实证研究工具。
……
获取公开课PPT
请后台回复“第21讲ppt”
获取下载链接
END
编辑/刘晓晨
审校/赵乾羽
责编/齐庆武
【延伸阅读】
关于我们
中国人民大学金融科技研究所(以下简称 “研究所”),英文名“FinTech Institute of Renmin University of China”,简称“RUC FinTech Institute” ,是专注于金融科技理论、应用与政策的新型智库和研究机构,也是人民大学金融科技学科“双一流”建设的延伸科研平台。研究所充分利用中国人民大学在金融、经济、管理、统计、法律以及计算机科学等方面的跨学科优势,打破学科壁垒,加强交叉融合,不断推进金融科技的前沿研究。研究所坚持理论联系实际,注重应用成果转化,不断加强学界、业界和政策部门的良性互动,重点打造一个“产学研政”四位一体的多元化平台,为推动金融科技行业健康可持续发展提供决策参考。
加入群聊
为了增进与粉丝们的互动,研究所建立了金融科技微信交流群,欢迎大家进群参与。
入群方法:后台回复“加群”,加小助手为微信好友,添加时备注个人姓名(实名认证)、单位、职务等信息,经群主审核后,即可被拉进群。
中国人民大学金融科技研究所
扫码关注我们
Research portal for all FinTech trends and policies.