最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!
凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
关于机器学习在计量分析中的应用,各位学者可以参阅如下文章:1.Python中的计量回归模块及所有模块概览,2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独,3.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),4.机器学习第一书, 数据挖掘, 推理和预测,5.从线性回归到机器学习, 一张图帮你文献综述,6.11种与机器学习相关的多元变量分析方法汇总,7.机器学习和大数据计量经济学, 你必须阅读一下这篇,8.机器学习与Econometrics的书籍推荐, 值得拥有的经典,9.机器学习在微观计量的应用最新趋势: 大数据和因果推断,10.机器学习在微观计量的应用最新趋势: 回归模型,11.机器学习对计量经济学的影响, AEA年会独家报道,12.机器学习,可异于数理统计,13.Python, Stata, R软件史上最全快捷键合辑!,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解,15.Python做因果推断的方法示例, 解读与code,16.文本分析的步骤, 工具, 途径和可视化如何做?17.文本大数据分析在经济学和金融学中的应用, 最全文献综述,18.文本函数和正则表达式, 文本分析事无巨细。
前面,我们引荐了①“机器学习方法出现在AER, JPE, QJE等顶刊上了!”,②前沿: 机器学习在金融和能源经济领域的应用分类总结,③Lasso, 岭回归, 弹性网估计在软件中的实现流程和示例解读”,④回归方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR),⑤高维回归方法: Ridge, Lasso, Elastic Net用了吗,⑥Lasso回归操作指南, 数据, 程序和解读都有,⑦七种常用回归技术,如何正确选择回归模型?,⑧共线性、过度/不能识别问题的Solutions,⑨计量经济学与实验经济学的若干新近发展及展望,⑩计量经济学新进展,供参考等,在学术同行间引起巨大反响。
《深度学习在金融领域的现状汇总与前沿瞻望》
Deep Learning for Financial Applications : A Survey
引言
深度学习算法介绍
多层感知机(DMLP)
卷积神经网络(CNNs)
递归神经网络(RNN)
长短时记忆网络(LSTM)
限制玻尔兹曼机(RBMs)
深度信念网络(DBNs)
自编码器(AEs)
其他模型
DL在金融领域中的应用
算法交易(Algorithmic Trading)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 土耳其担保银行 | 2016 | OCHLV、价差、波动性、换手率等 | PLR、Graves改进的LSTM | MSE、RMSE、MAE、RSE、相关系数和R2 | Spark |
2 | 沪深300、印度Nifty50、恒生指数(HSI)、日经225、标普500、道琼斯指数 | 2010-2016 | OCHLV、技术指标 | WT、Stacked autoencoders、LSTM | MAPE、相关系数、THEILU | - |
3 | 中国股市 | 2007-2017 | OCHLV | CNN+LSTM | 年化收益率、最大回撤 | Python |
4 | 纽交所50个股票 | 2007-2016 | 价格数据 | SFM | MSE | - |
5 | 芬兰股市5只股票的市值 | 2010 | 要价/报价、成交量 | WMTR、MDA | 准确率、精确率、召回率、F1分数 | - |
6 | 300支深交所股票 | 2014-2015 | 价格数据 | FDDR、DNN+RL | 利润、回报、SR | Keras |
7 | 标普500指数 | 1989-2005 | 价格数据、成交量 | LSTM | 回报、STD、SR、准确率 | Python、TensorFlow、Keras、R、H2O |
8 | 希腊银行股票(ETE) | 2009-2014 | FTSE100、道琼斯指数、GDAX交易所、日经225、欧元美元汇率、黄金 | GASVR、LSTM | 回报、波动性、SR、准确率 | TensorFlow |
9 | 中国IF-IH-IC股指期货 | 2016-2017 | 价格变动 | MODRL+LSTM | 收益与亏损、SR | - |
10 | 新加坡股市指数 | 2010-2017 | 过去十天指数的OCHL | DNN | RMSE、MAPE、利润、SR | - |
11 | 英镑/美元 | 2017 | 价格数据 | RL+LSTM+NES | SR、下偏比、总利润 | Python、Keras、TensorFlow |
12 | 商品、外汇期货、ETF | 1991-2014 | 价格数据 | DNN | SR、CP值、回报 | C++、Python |
13 | 美元/英镑、标普500、英国富时100(FTSE100)、石油、黄金 | 2016 | 价格数据 | AE+CNN | SR、波动性、平均回报/交易量、回报率 | H2O |
14 | 比特币(Bitcoin)、达世币(Dash)、瑞波币(Ripple)、门罗币(Monero)、莱特币(Litecoin)、狗币(Dogecoin)、未来币(Nxt)、域名币(Namecoin) | 2014-2017 | 移动平均线(MA)、布林线(BOLL)、CRIX回报、欧洲银行同业拆借利率、OCHLV | LSTM、RNN、MLP | 准确率、F1分数 | Python、TensorFlow |
15 | 标普500、韩国KOSPI指数、恒生指数和欧洲斯托克50指数 | 1987-2017 | 200天股票价格 | 深度Q-Learning、DNN | 总利润、相关性 | - |
16 | 标普500包含的股票 | 1990-2015 | 价格数据 | DNN、GBT、RF | 平均回报、MDD、Calmar比率 | H2O |
17 | 基础数据、技术数据与经济数据 | - | 基础、技术和市场信息 | CNN | - | - |
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 道琼斯30指数中的股票 | 1997-2017 | RSI | 遗传算法修参的DMLP | 年化收益率 | Spark MLlib、Java |
2 | 标普500ETF,十只来自标普500的股票 | 2014-2016 | 价格数据 | FFNN | 累计收益 | MatConvNet、Matlab |
3 | 道琼斯30股票 | 2012-2016 | 收盘价和若干个技术指标 | LSTM | 准确率 | Python、Keras、Tensorflow、TALIB |
4 | 所有高频交易记录 | 2014-2017 | 价格数据,订单与交易 | LSTM | 准确率 | - |
5 | 纳斯达克交易所 | 2010 | LOB中的价格与交易量 | LSTM | 精确率、召回率、F1分数、kappa系数 | - |
6 | 17个ETF | 2000-2016 | 价格数据,技术指标 | CNN | 准确率、MSE、利润、AUROC | Keras、Tensorflow |
7 | 道琼斯30股票和9个最大交易量的ETF | 1997-2017 | 价格数据,技术指标 | CNN+图像特征 | 召回率、精确率、F1分数、年化收益率 | Python、TensorFlow、Keras、Java |
8 | 英国富时100 | 2000-2017 | 价格数据 | CAE | TR、SR、MDD、平均回报 | - |
9 | 纳斯达克交易所 | 2010 | 价格,交易量,10个LOB中的订单 | CNN | 精确率、召回率、F1分数、kappa系数 | Theano、Scikitlearn、Python |
10 | 土耳其Borsa Istanbul 100指数中的股票 | 2011-2015 | 75项技术指标与OCHLV | CNN | 准确率 | Keras |
11 | ETF和道琼斯30指数 | 1997-2007 | 价格数据 | CNN+图像特征 | 年化收益率 | Keras、Tensorflow |
12 | 8项债券/衍生品市场中的实验资产 | - | 资产价格数据 | RL、DNN、遗传算法 | 学习误差与遗传算法误差 | - |
13 | 10只来自标普500的股票 | - | 股票价格 | TDNN、RNN、PNN | 遗失率、虚警率 | - |
14 | 伦交所 | 2007-2008 | 订单簿、交易、买/卖订单,删除订单 | CNN | 准确率、kappa系数 | Caffe |
15 | 加密货币,比特币 | 2014-2017 | 价格数据 | CNN、RNN、LSTM | 累计投资组合价值、MDD、SR | - |
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 德国DAX、英国富时100指数、看涨/看跌期权 | 1991-1998 | 价格数据 | 马尔科夫模型、RNN | 日利润的均值和标准差 | - |
2 | 台湾股指期货、迷你股指期货 | 2012-2014 | 图像中的价格数据 | 可视化方法+CNN | 累计利润、准确率 | - |
3 | 标普500中的能源部门/核心公司 | 2015-2016 | 文本与价格数据 | LSTM、RNN、GRU | 回报、夏普比率、精确率、召回率、准确率 | Python、Tweepy API |
4 | 芝商所信息 | 2016 | 订单簿、时间戳、价格数据 | RNN | 精确率、召回率、F1分数 | Python、TensorFlow、R |
5 | 台湾股指期货(TAIFEX) | 2017 | 价格数据 | RL+CNN预处理 | 准确率 | - |
6 | 标普500中的股票 | 2010-2016 | OCHLV | DCNL | PCC、DTW、VWL | Pytorch |
7 | 来自今日新闻网、苹果日报、自由时报、理财网中的关于18只股票的新闻 | 2013-2014 | 文本、观点 | DNN | 回报 | Python、Tensorflow |
8 | 来自标普500的和纳斯达克100的489只股票 | 2014-2015 | 订单簿 | 空间神经网络 | 交叉熵误差 | NVIDIA’s cuDNN |
9 | 实验数据集 | - | 价格数据 | 由CNN、LSTM、GRU和MLP组成的深度强化学习 | 平均利润 | Python |
风险评估(Risk Assessment)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 信用违约掉期 | 2016 | 回收率、传播路径、部门和地区 | DBN+RBM | AUROC、FN、FP、准确率 | WEKA |
2 | 德国、日本信贷数据集 | - | 个人金融变量 | SVM+DBN | 加权准确率、TP、TN | - |
3 | 来自Kaggle平台的信贷数据 | - | 个人金融变量 | DNN | 准确率、TP、TN、G-mean指标 | - |
4 | 澳大利亚、德国信贷数据 | - | 个人金融变量 | GP+AE优化DNN | FP | Python、Scikitlearn |
5 | 澳大利亚、德国信贷数据 | - | 个人金融变量 | DCNN、MLP | 准确率、虚警、漏警 | - |
6 | 来自中国金融公司的消费者信贷数据 | - | 使用Relief算法选择50个最重要的维度 | CNN+ Relief | AUROC、K统计量、准确率 | Keras |
7 | 来自UCI 机器学习repo的信贷数据集 | - | UCI信贷数据集 | 双曲正切函数、maxout函数、Rectifier函数 | - | AWS、EC2、H2O、R |
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 966家法国公司 | - | 财务比率 | RBM+SVM | 精确率、召回率 | - |
2 | 883家来自EDGAR的银行持股公司 | 2006-2017 | 代币、加权情感极性、杠杆率和ROA | CNN、LSTM、SVM、RF | 准确率、精确率、召回率、F1分数 | Keras、Python、Scikitlearn |
3 | 大型欧洲银行的事件数据集、路透社的新闻文章 | 2007-2014 | 单词与句子 | DNN+NLP预处理 | 相对实用性、F1分数 | - |
4 | 欧洲银行的事件数据集、路透社的新闻 | 2007-2014 | 文本与句子 | 句子向量+DFFN | 实用性、F1分数、AUROC | - |
5 | 路透社的新闻、财务数据 | 2007-2014 | 财务指标和新闻文本 | doc2vec+NN | 相对实用性 | Doc2vec |
6 | 宏微观经济变量、来自银行持股公司的银行特征/绩效变量 | 1976-2017 | 宏观经济变量和银行绩效 | CGAN、MVN、MV-t、LSTM、VAR、FE-QAR | RMSE、对数似然值、贷款损失率 | - |
7 | 法国公司的财务报表 | 2002-2006 | 财务比率 | DBN | 召回率、精确率、F1分数、FP、FN | - |
8 | 来自证券价格研究中心的美国上市公司股票回报 | 2001-2011 | 价格数据 | DBN | 准确率 | Python、Theano |
9 | 几个来自日本股票市场的公司财务报表 | 2002-2016 | 财务比率 | CNN | F1分数、AUROC | - |
10 | 包含当地和全国经济因素的投资组合数据集 | 1995-2014 | 与特征有关的投资组合 | ANN | 负对数似然值 | AWS |
11 | 来自挪威金融集团的投资组合数据、挪威银行 | 2012-2016 | 个人财务变量 | CNN | 准确率、敏感性、特异性、AUROC | - |
12 | 私人经纪公司的真实风险交易数据 | - | 订单详情等250个特征 | CNN、LSTM | F1分数 | Keras、Tensorflow |
13 | 由几个数据集拼合而成 | 1996-2017 | 指数数据、10年期债券收益率、汇率 | Logit、CART、RF、SVM、NN、XGBoost、DNN | AUROC、KS、G-mean值、似然比率、DP、BA、WBA | R |
欺诈预测(Fraud Detection)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 印度尼西亚一家当地银行的借机卡交易记录 | 2016-2017 | 在若干时间段中的交易量 | CNN、叠加LSTM、CNN-LSTM | AUROC | - |
2 | 来自零售银行的信用卡交易 | 2017 | 交易变量和几个衍生特征 | LSTM、GRU | 准确率 | Keras |
3 | 银行卡的消费记录 | 2014-2015 | 每个国家目前/起始的欺诈概率、其他欺诈相关特征 | ANN | AUROC | - |
4 | 欧洲持卡人的信用卡交易记录 | 2013 | 对个人财务变量进行PCA | ANN、RF | 召回率、精确率、准确率 | - |
5 | 信用卡交易记录 | 2015 | 交易特征与银行特征 | LSTM | AUROC | Keras、Scikitlearn |
6 | 巴西联邦税收秘书处对外贸易数据库 | 2014 | 出口贸易、税、交易、员工、发票等8个特征 | AE | MSE | H2O、R |
7 | 众议院公开数据、来自巴西联邦税收秘书处的公司数据 | 2009-2017 | 巴西国家开支、当事人、支出类别等21个特征 | 深度自编码器 | MSE、RMSE | H2O、R |
8 | 被标记为骗保的汽车保险公司真实数据 | - | 汽车、保险和事故相关特征 | DNN+LDA | TP、FP、准确率、精确率、F1分数 | - |
9 | 来自一个巨大的在线支付平台的交易记录 | 2006 | 个人财务变量 | GBDT+DNN | AUROC | - |
10 | 金融交易 | - | 交易数据 | LSTM | t-SNE | - |
11 | 来自希腊公司的实验数据 | - | - | DQL | 收入 | Torch |
投资组合管理(Portfolio Management)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 加密货币、比特币 | 2014-2017 | 价格数据 | CNN、RNN、LSTM | 累计投资组合价值、MDD、SR | - |
2 | 来自纽交所、美交所、纳斯达克交易所的股票 | 1965-2009 | 价格数据 | 自动编码器+RBM | 准确率、混淆矩阵 | - |
3 | 20只标普500中的股票 | 2012-2015 | 技术指标 | MLP | 准确率 | Python、Scikitlearn、Keras、Theano |
4 | 中国股票数据 | 2012-2013 | 技术指标与基本指标 | 逻辑回归、RF、DNN | AUC、准确率、精确率、召回率、真正例率、反正例率 | Keras、Tensorflow、Python、Scikitlearn |
5 | 标普500中最大的5个公司 | - | 价格数据与财务比率 | LSTM、自动编码器、智能索引 | CAGR | - |
6 | 纳斯达克生物科技交易所基金 | 2012-2016 | 价格数据 | 自动编码器、校准验证 | 回报 | - |
7 | 台湾股票市场 | - | 价格数据 | Elman神经网络、RNN | MSE、回报 | - |
8 | 外汇(EUR/USD)、黄金 | 2013 | 价格数据 | RNN | 回报 | Python |
9 | 纽交所、美交所、纳斯达克交易所的股票日内交易数据 | 1993-2017 | 价格、15种公司特征 | LSTM+MLP | 月回报、SR | Python、Keras、Tensorflow in AWS |
10 | 标普500 | 1985-2006 | 月度和日度的对数回报 | DBN+MLP | 检验误差 | Theano、Python、Matlab |
11 | 10只标普500中的股票 | 1997-2016 | OCHLV、价格数据 | RNN、LSTM、GRU | 准确率、月回报 | Keras、Tensorflow |
12 | 东京和大阪证券交易所的分析报告 | 2016-2018 | 文本 | LSTM、CNN、Bi-LSTM | 准确率、R2 | R、Python、Matlab |
13 | 中国/美国股票市场中的股票 | 2015-2018 | OCHLV、基本面数据 | DDPG、PPO | SR、MDD | Keras、Python、MeCab |
14 | 对冲基金月度回报数据 | 1996-2015 | 回报、SR、STD、偏度、风度、欧米茄比率、基金中的alpha | DNN | 夏普比率、年回报、累计回报 | - |
15 | 12种交易量最大的加密货币 | 2015-2016 | 价格数据 | CNN+RL | SR、投资组合价值、MDD | - |
资产定价与衍生品市场(Asset Pricing and Derivatives Market)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 东京和大阪证券交易所的分析报告 | 2016-2018 | 文本 | LSTM、CNN、Bi-LSTM | 准确率、R2 | R、Python、MeCab |
2 | 模拟一系列看涨期权价格 | - | 价格信息、执行价格、期限、股利、无风险利率、波动性 | DNN | RMSE、平均定价误差百分比 | Tensorflow |
3 | 台湾指数(TAIEX) | 2017 | OCHLV、基本面分析、期权价格 | MLP、使用斯科尔斯期权定价模型的MLP | RMSE、MAE、MAPE | - |
4 | 纽交所、美交所和纳斯达克交易所的回报 | 1975-2017 | 57个公司特征 | Fama-French n因子模型 | R2、RMSE | Tensorflow |
加密货币和区块链研究(Cryptocurrency and Blockchain Studies)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 比特币、达世币、瑞波币、门罗币、狗币、未来币、域名币 | 2014-2017 | MA、BOLL、CRIX日回报、欧洲银行同业拆借利率、EURO/UK、EURO/USD和US/JPY的OCHLV | LSTM、RNN、MLP | 准确率、F1分数 | Python、Tensorflow |
2 | 加密货币、比特币 | 2014-2017 | 价格数据 | CNN | 累计投资组合价值、MDD、SR | - |
3 | 12种交易量最大的比特币 | 2015-2016 | 价格数据 | CNN+RL | SR、投资组合价值、MDD | - |
4 | 比特币数据 | 2010-2017 | 哈希值、比特币地址、公钥/私钥、数字签名 | TS模糊模型、模糊认知图 | 层次分析法 | - |
5 | 比特币数据 | 2012,2013,2016 | 交易ID、买入/卖出地址、时间戳 | 启发式图嵌入算法、拉普拉斯映射、深度自编码器 | F1分数 | - |
6 | 比特币、莱特币、推特 | 2015-2018 | OCHLV、技术指标、敏感性分析 | CNN、LSTM、状态频率模型 | MSE | Keras、Tensorflow |
7 | 比特币 | 2013-2016 | 价格数据 | 贝叶斯优化后的RNN、LSTM | 敏感性、特异性、精确率、准确率、RMSE | Keras、Python、Hyperas |
财务情绪分析和行为金融学(Financial Sentiment Analysis and Behavioral Finance)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 东京、大阪证券交易所的分析报告 | 2016-2018 | 文本 | LSTM、CNN、Bi-LSTM | 准确率、R2 | R、Python、Mecab |
2 | 新浪微博、证券市场记录 | 2012-2015 | 技术指标、句子 | DRSE | F1分数、精确率、召回率、准确率、AUROC | Python |
3 | 来自路透社和彭博的关于标普500股票的新闻 | 2006-2015 | 财经新闻、价格数据 | DeepClue | 准确率 | Dynet software |
4 | 路透社和彭博新闻,历史股票安全数据 | 2006-2013 | 新闻、价格数据 | DNN | 准确率 | - |
5 | 上证综合指数价格 | 2008-2015 | 变化率的OCHL、价格 | 情感分析+LSTM | MSE | - |
6 | 上证综合指数价格 | 2013-2016 | 文本数据和价格数据 | LSTM | 准确率、F1分数 | Python、Keras |
7 | 谷歌、微软和苹果公司的股票 | 2016-2017 | 推特情感和股票价格 | RNN | - | Spark、Flume、Twitter、API |
8 | 30支道琼斯股票、标普500、道琼斯指数、路透社新闻 | 2002-2016 | 价格数据、新闻和文章的特征 | LSTM、NN、CNN和word2vec | 准确率 | VADER |
9 | 沪深300指数的股票及OCHLV | 2009-2014 | 情感帖子、价格数据 | 朴素贝叶斯+LSTM | 精确率、召回率、F1分数、准确率 | Python、Keras |
10 | 标普500、纽交所、道琼斯、纳斯达克交易所 | 2009-2011 | 推特情绪、指数数据 | DNN、CNN | 错误率 | Keras、Theano |
金融文本挖掘(Financial Text Mining)
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 标普500中的能源部门/核心公司 | 2015-2016 | 文本和价格数据 | 回报、SR、精确率、召回率、准确率 | Python、Tweepy API | |
2 | 来自路透社和彭博的新闻 | 2006-2013 | 财经新闻、价格数据 | Bi-GRU | 准确率 | Python、Keras |
3 | 来自新浪网的新闻、ACE2005中文标注语料库 | 2012-2016 | 一系列新闻文本 | 独特算法 | 精确率、召回率、F1分数 | - |
4 | 德国CDAX股票市场数据 | 2010-2013 | 财经新闻、股票市场价格 | LSTM | MSE、RMSE、MAE、准确率、AUC | TensorFlow、Theano、Python、Scikit-Learn |
5 | 来自路透社和彭博的苹果、空中客车公司、亚马逊新闻、标普500股票价格 | 2006-2013 | 价格数据、新闻、技术指标 | TGRU、stock2vec | 准确率、精确率、AUROC | Keras、Python |
6 | 标普500指数、15只标普500股票 | 2006-2013 | 路透社和彭博新闻 | CNN | 准确率、MCC | - |
7 | 来自路透社的标普500指数新闻 | 2006-2013 | 财经新闻标题、技术指标 | SI-RCNN(LSTM+CNN) | 准确率 | - |
8 | 10只日经225成分股和新闻 | 2001-2008 | 文本信息和股票价格 | 段落向量+LSTM | 利润 | - |
9 | 印度NIFTY50指数、银行/汽车/互联网/能源行业指数、新闻 | 2013--2017 | 指数数据、新闻 | LSTM | MCC、准确率 | - |
10 | 价格数据、指数数据、新闻、社会媒体数据 | 2015 | 价格数据、来自文章和社交媒体的新闻 | 耦合矩阵和张量 | 准确率、MCC | Jieba |
11 | 沪深300 | 2015-2017 | 社交媒体新闻、价格数据 | 文档生成模型与RNN-Boost | 准确率、MAE、MAPE、RMSE | Python、Scikitlearn |
12 | 新闻和中国股票数据 | 2014-2017 | 新闻中的选词 | HAN | 准确率、年回报 | - |
13 | 新闻,来自港交所的价格数据 | 2001 | 价格数据和来自新闻的TF-IDF | ELM、DLR、PCA、BELM、KELM、NN | 准确率 | Matlab |
14 | 台湾TWSE指数、4只TWSE成分股 | 2001-2017 | 技术指标、价格数据、新闻 | CNN+LSTM | RMSE、利润 | Keras、Python、TALIB |
15 | Tsugami公司的股票 | 2013 | 价格数据 | LSTM | RMSE | Keras、Tensorflow |
16 | 新闻、Nikkei股票的均值、10个Nikkei成分公司 | 1999-2008 | 新闻、MACD | RNN、RBM+DBN | 准确率、P值 | - |
17 | ISMIS2017矿业竞争比赛数据 | - | 专项标示符、分类 | LSTM+GRU+FFNN | 准确率 | - |
18 | 路透社和彭博新闻、标普500指数价格 | 2006-2013 | 新闻和句子 | LSTM | 准确率 | - |
19 | 标普500、来自路透社的新闻 | 2011-2017 | 输入新闻、OCHLV、技术指标 | CNN+LSTM、CNN+SVM | 准确率、F1分数 | Tensorflow |
20 | 日经225指数、标普500指数、来自路透社和彭博的新闻 | 2001-2013 | 股票价格数据和新闻 | DGM | 准确率、MCC、利润率 | - |
21 | 标普500成分股 | 2006-2013 | 文本(新闻)和价格数据 | LAR+新闻、RF+新闻 | MAPE、RMSE | - |
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 883家来自EDGAR的银行持股公司 | 2006-2017 | 代币、加权情感极性、杠杆率和ROA、 | CNN、LSTM、SVM、随机森林 | 准确率、精确率、召回率、F1分数 | Keras、Python、Scikitlearn |
2 | 2017年SemEval数据集、金融文本、新闻、股票市场数据 | 2017 | 博客中的情感、新闻标题 | 集成SVR、CNN、LSTM、GRU | 余弦相似度、等级得分、赞同得分 | Python、Keras、Scikitlearn |
3 | 来自路透社的金融新闻 | 2006-2015 | 词向量、词汇与语境输入 | Tree-LSTM | 累计超额收益率(CAR) | - |
4 | 来自推特的股票情感分析 | 2015 | Stock-Twits中的信息 | LSTM、Doc2Vec、CNN | 准确率、精确率、召回率、f得分、AUC | - |
5 | 新浪微博、股票市场记录 | 2012-2015 | 技术指标、句子 | DRSE | F1得分、精确率、召回率、准确率、AUROC | Python |
6 | 来自今日新闻网、苹果日报、自由时报、理财网的关于18只股票的新闻 | 2013-2014 | 文本、情感 | - | 回报 | Python、Tensorflow |
7 | 推特 | 2008-2016 | 句子、Stock-Twits中的信息 | CNN、LSTM、GRU | MCC、WSURT | Keras、Tensorflow |
8 | 日本公司的财务报表 | - | 句子、文本 | DNN | 精确率、召回率、F得分 | - |
9 | 推特文章、新闻标题 | - | 句子、文本 | Deep-FASP | 准确率、MSE、R2 | - |
10 | 论坛数据 | 2004-2013 | 句子和关键词 | 递归神经网络 | 精确率、召回率、F得分 | - |
11 | 金融时报中与美国股票相关的新闻 | - | 新闻标题中的情绪 | SVR、双向LSTM | 余弦相似度 | Python、Scikitlearn、Keras、Tensorflow |
编号 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|
1 | 来自今日新闻网、苹果日报、自由时报、理财网的关于18只股票的新闻 | 2013-2014 | 文本、情感 | - | 回报 | Python、Tensorflow |
2 | 大型欧洲银行的事件数据集、路透社的新闻文章 | 2007-2014 | 单词与句子 | DNN+NLP预处理 | 相对实用性、F1分数 | - |
3 | 欧洲银行的事件数据集、路透社的新闻 | 2007-2014 | 文本与句子 | 句子向量+DFFN | 实用性、F1分数、AUROC | - |
4 | 路透社的新闻、财务数据 | 2007-2014 | 财务指标和新闻文本 | doc2vec+NN | 相对实用性 | Doc2vec |
5 | 被标记为骗保的汽车保险公司真实数据 | - | 汽车、保险和事故相关特征 | DNN+LDA | TP、FP、准确率、精确率、F1分数 | - |
6 | 金融交易 | - | 交易数据 | LSTM | t-SNE | - |
7 | 台湾居民养老保险 | 2008-2014 | 保险人ID、地区编码、性别等 | RNN | 准确率、所有误差 | Python |
8 | Stock-Twits | 2015-2016 | 句子、Stock-Twits信息 | Doc2vec、CNN | 准确率、精确率、召回率、f得分、AUC | Python、Tensorflow |
理论与概念研究
编号 | 主题 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|---|
1 | AE、SVD的分析 | 纳斯达克生物科技交易所基金指数的成分股、安进股份中的股票 | 2012-2014 | 价格数据 | AE、SVD | - | - |
2 | 银行中的反欺诈 | 风险管理/反欺诈 | - | - | DRL | - | - |
其他金融应用领域
编号 | 主题 | 数据集 | 时间段 | 特征集 | 算法 | 性能指标 | 运行环境 |
---|---|---|---|---|---|---|---|
1 | 促进成交决策 | 标普500、韩国KOSPI指数、恒生指数和欧洲斯托克50指数 | 1987-2017 | 200天股票价格 | 深度Q-Learning、DNN | 总利润、相关性 | - |
2 | 确定地下经济的最大交易者 | 论坛数据 | 2004-2013 | 句子和关键词 | 递归神经网络 | 精确率、召回率、F得分 | - |
3 | 预测支付习惯 | 台湾居民养老保险 | 2008-2014 | 保险人ID、地区编码、性别等 | RNN | 准确率、所有误差 | Python |
4 | 加速 | 45个芝商所的上市产品和外汇期货 | 1991-2014 | 价格数据 | DNN | - | - |
5 | 基础预测 | 纽交所、纳斯达克交易所或美交所的股票 | 1970-2017 | 来自资金平衡表的16个基本指标 | MLP、LFM | MSE、年收益、SR | - |
6 | 预测银行的电话销售 | 银行市场数据中的电话记录 | 2008-2010 | 16个金融相关变量 | CNN | 准确率 | - |
7 | 公司绩效预测 | 22家美国股票市场中的药物公司 | 2000-2015 | 11个经济变量、4个其他变量 | RBM、DBN | RMSE、利润 | - |
金融领域深度学习应用的现状
一些对于现状的思考
对于模型的讨论
对于应用领域的讨论
待解决的问题和未来的工作
CNN作为新兴算法,在各个金融领域具有适应性,它为很多问题的解决提供了机会;图卷积网络(Graph-CNN)与CNN密切相关但具有差异,它并没有被广泛运用,这一算法仍有发展的空间。
最近开发的深度学习模型,如GAN、胶囊网络等,为现有的实现提供可行的替代方案。它们逐渐出现在各种非金融研究中,这是一种比较好的态势。
由于金融文本挖掘正在迅速发展,可以对Stock2Vec等新的数据模型进行增强,以获得更好的模型。此外,基于NLP的集成模型或许可以与图像相结合,提高现有模型的准确性。
混合模型比独立模型更受欢迎,且这个趋势很可能持续下去。研究人员需要引入更多通用的或非常规的模型来获得更好的结果,可能是研究人员找寻正“alpha”的一个有效手段。
算法交易、投资组合管理、风险评估可能会继续在金融研究领域占据主导地位。与此同时,一些新兴领域开始得到更广泛的关注,这对金融界的影响值得思考与关注。
加密货币和区块链技术具有可能性。它为研究人员提供了一个很好的机会,可以塑造未来的新金融世界,充满着创新的希望。
投资组合管理也是一个新的受益领域。机器人咨询系统在世界范围应用越来越多,这些系统依赖于高性能的自动决策系统,而深度学习模型很适合此类工作。我们有理由相信,深度学习对于此领域的运用是未来可期的。
在衍生品市场,深度学习的应用并不够。衍生金融产品具有极强的灵活性,对计算的性能要求极高,深度学习可以进行更多的尝试。其中,期权策略优化、期货交易、期权定价、套利交易等都可以从深度学习中受益。
情感分析、文本挖掘、风险资产定价可能是未来的发展方向,它们已受到研究人员的关注,但仍未充分利用。
高频交易领域由于需要进行快速的运算,仍未从机器学习领域得到有效的提高。而深度学习可以研究更多硬件方面,为高频交易助力。
把握区块链和加密货币领域,目前来看是具有必要的
注意文本挖掘、金融情绪分析与行为金融学的耦合,其中隐藏着大量的机会。行为金融学的研究并未使用深度学习,这可能是由于难以量化行为金融学的投入与产出。但随着文本挖掘、NLP的不断完善,未来可以进行尝试。
对引言中提出问题的回复:
结论
金融行业和学术界已经开始意识到,深度学习模型在各个领域具有极高的潜力。研究的数量正在逐年加速增长,而此时,正是高速发展的时代,越来越多的研究会被逐渐落实,新的模式会不断涌入。在这篇文章中,我们不仅提供了目前研究现状的细分领域介绍,并试图为未来的研究人员确定方向。这一领域具有难以置信的机遇,并且这些机遇不会很快消失。我希望这篇文章是一个很好的契机,鼓励对该领域感兴趣的研究人员继续探索,将深度学习进行更深度的挖掘。
长按以上二维码可以阅读Deep Learning for Financial Applications : A Survey原文
关于一些计量方法的合辑,各位学者可以参看如下文章:①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些,⑥过去三十年, RCT, DID, RDD, LE, ML, DSGE等方法的“高光时刻”路线图。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!⑩最近50篇使用系统GMM开展实证研究的papers合辑!
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。