【大数据专栏】中科院刘颖:基于互联网数据的社会经济预测
【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】
文 / 刘颖,本文为刘颖在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录
主讲嘉宾:刘颖
主持人:中关村大数据产业联盟 副秘书长 陈新河
承办:中关村大数据产业联盟
嘉宾介绍:
刘颖,中国科学院大学管理学院讲师、EDP中心副主任。主要从事网络经济、互联网金融、电子商务、商业数据分析等领域的研究工作。学术和社会兼职:2011年获得阿里巴巴最佳学者荣誉称号;2009-2012年在国务院发展研究中心从事"宏观经济预测与产业分析"研究工作。主持国家自然科学基金、北京市自然基金、中国博士后特别资助等多项科研项目。
以下为分享实景全文:
大家好,感谢新河老师的安排,现在进入自动驾驶模式。很高兴与大家分享我过去几年关于互联网行为分析的一些研究成果。今天的主题是:基于互联网数据的社会经济预测。
谈到预测,首先简要梳理下现有的预测方法及其数据基础:
现有社会经济统计数据存在1-2月的延迟,比如CPI、工业增加值、GDP等。为了尽早获知经济变量的未来趋势,常用的预测方法有:
1、时间序列模型,其原理是根据历史推测未来
2、计量模型,其假设前提是环境变量不发生变化(没有突发因素)
3、人工智能模型,其参数设置缺少理论和经济意义支撑
这些方法在常规条件下比较有效,但是当市场常受到大规模促销、社会或自然事件影响时,传统方法对市场最新变化和突发事件的捕获能力很有限。互联网数据为预测研究开辟了新空间,网络数据记录了数亿用户点击行为、搜索意图、倾向性、情绪,其优势有:
1、互联网数据是一种“准自然”采样,比调查数据具有更强的普遍性;
2、互联网数据的及时性也强于传统调查数据
具体来看,我们把网络数据分成三种:
一是浏览数据,主要用于电商领域的消费者行为分析,浏览数据反映了用户每一步的访问脚步,进一步刻画出用户的访问路径,分析不同页面的跳转概率等。
二是搜索数据,主要指搜索引擎记录的关键词被搜索频次的时间序列数据,能反映数亿用户的兴趣、关注点、意图。
三是互动数据,主要是微博、微信、社交网站的数据,反映用户的倾向性和情绪因素。
今天主要和大家分享的是关于搜索数据的预测研究。共2个研究:一个是应用海量搜索数据预测中国股票市场;二是基于百度搜索竞价数据的中小企业景气指数研究。
先分享第一个。首先,梳理一下 互联网搜索行为与股票市场的关联机理。
这个研究属于行为金融与互联网的交叉领域,其原理是:股票量价调整是投资者行为在股票市场上的反应;与此同时,投资者行为在互联网搜索市场也有相应地行为迹象,我们要做到是:找到互联网搜索市场中领先于股票交易的行为指标,综合众多投资者的先行搜索指标,对未来的股票交易作出预判。
那么,海量搜索数据的选取、预处理、模型分析是关键,我们提出了一个数据分析流程架构。
这部分不详细展开了,感兴趣的朋友可以查阅我的一篇论文。“互联网搜索数据预处理方法及其在股市分析中的应用”。
这种分析股票市场的方法靠不靠谱呢?下面列举下2011年的测试数据,当时作为指导教师,带领中科院的几个学生拿这项研究成果参加了“2011花旗杯金融信息技术应用大赛”,还拿到了全国第七名的成绩。记得当时 白硕老师还是大赛评委,再次向白硕老师表示感谢。
采取一个简单地投资策略:如果预测结果未来一周大盘会涨,那么,本周就买进;反之,就卖出。投资测试结果显示:这样的策略的年化收益率是28%(如图黄色曲线)。
为了进一步消除人工调参、主观性影响,我们随机采取了模型的参数,那么,测试结果是:最差的情况下年化投资收益15%;最好情况下年化收益31%。
而且,这种投资策略的一个优势是:在股票熊市时,有很强的抗风险能力。
第二个研究:基于百度搜索竞价数据的中小企业景气指数研究
我国中小企业在数量、创造GDP、拉动就业方面的占比均已超过60%,特别是对于小微企业,好像还没有一个有效的指数度量企业的活力。PS. 景气这个词有点大:)这项研究与百度公司合作,百度提供了几十万企业的搜索竞价数据。
把数据分成几个维度:企业规模维度:按企业规模分为两类:
大企业,即百度搜索引擎营销中的大企业客户;
中小企业,即剔除大企业用户后的企业群体;
行业维度与样本量:基于百度搜索推广所覆盖的企业用户,选取“所有行业整体”、“旅游票务业”、“教育培训业”、“机械制造业”作为典型代表
指标维度:备选指标从以下几个方面来选择:
反映市场需求的指标:点击统计量;
反映企业对搜索营销投入的指标:消费统计量;
时间维度:2009年11月——2012年7月的每周的时间序列数据。
基于百度数据的中小企业景气指数,曲线形态如上图。
一个规律是:小企业指数是市场反应最灵敏的指标,小企业指数走势先行于全部企业;全部企业走势先行于大企业。
如上面两个图所示:都是中小企业指数最先下滑、探底、回升,之后全部企业指数、大企业指数才跟随着变化。为了印证百度指数的有效性,我们和国家统计局中国经济景气监测中心发布的经济先行指数做了一个对比。
上图中,蓝线是百度大企业指数,红线是 中国经济景气监测中心发布的经济先行指数,二者的相关系数为90.5%,并且,百度大企业指数领先于经济先行指数3个月。如果和中国经济景气监测中心发布的经济一致指数相比较,发现百度大企业指数领先5-6个月。如下图
如果说百度大企业指数能够一定程度上代表了中国经济景气监测中心的经济景气,那么,百度中小企业指数是否也可以代表统计局没有调查到的中小企业运行状况呢?这是我们的一个推断,当然还需要进一步的验证。我们还构建了景气对比指数:景气对比指数=中小企业景气度/大企业景气度,景气对比指数小于100%,说明中小企业景气扩张程度低于大企业景气度,景气对比指数值越低,说明中小企业相对于大企业的运营状况越差。
此外,还做了分行业的指数。
每个行业形态各部相同。一个有意思的现象是:发现教育培训业的指数具有反经济周期规律。我们结合中科院管院MBA招生情况,还真是经济比较差得时候,我们MBA招生比较火爆。说明大家可能在经济萧条时更喜欢充电学习。这项研究,百度大数据部正在进行产品上线,如果顺利的话,下半年大家就会看到有相关数据的定期发布。
此外,基于互联网搜索数据的预测研究,我们还做过CPI、汽车销量、旅游客流量等指标的研究。感兴趣的朋友再交流,今天先分享这么多。谢谢大家的耐心和支持。
交流互动
郭义民:
cpi做出来的效果如何。
刘颖:
CPI这篇文章已在《管理科学学报》发表,结论是,具有监测CPI拐点的能力。
郭义民:
你们是和百度合作研究吗?
刘颖:
中小企业指数这个是和百度合作。因为是企业购买关键词竞价的数据,只有百度有,且不公开
尚硕:
宏观经济的关联性更强,尤其是中小企业指数这个项目,很有价值
刘颖:
恩,宏观经济的关联分析,我们除了应用搜索数据外,目前也在做微博数据,我有个课题是:微博情绪对旅游客流的影响。
郭义民:
是吗,那百度的数据是免费提供吗?
刘颖:
百度的搜索频次数据,可以在百度指数上查到:http://index.baidu.com/
郭义民:
你们的数据都是如何取得呢?
刘颖:
百度指数对公众是免费的,但是不能下载。只能看,不能下。
尚硕:
看看微博分享的美食或其他日用消费数据内容,与cpi关联分析应该也很有意思
尚硕:
@尚硕-拉卡拉数据?建议非常好,正在做尝试,微博文本分析有一定难度
郭义民:
另外,你们处理的数据量有多大,是否有自己的平台,使用什么工具处理?谢谢!
刘颖:
数据收集,一开始有个抓取工具,自己开发的。后来百度改版了,不能用了。目前就是跟百度合作,拿数据方便一些。数据抓取的平台,正在开发之中,但是估计是一个定制化的平台,不能满足所有的数据需求。
郭义民:
是吗,是自己开发还是请公司开发的呢?
刘颖:
自己学生开发,进度比较慢
郭义民:
是吗,可能商业化的要可靠些!
刘颖:
恩,因为是纯做研究,有些数据够用就行,要求比较低。
陈新河:
刘颖这个研究与统计局正在与阿里巴巴、我的钢铁网进行合作的项目结合,效果估计会更好。
陈新河:联盟副秘书长;《软件定义世界,数据驱动未来》@刘颖再次感谢刘颖的精彩分享!
【入中关村大数据产业联盟500人微信群指南】
您只需在中关村大数据产业联盟500人微信群中分享一次大数据思想、案例,即可进入500人微信群,与众多大数据朋友沟通、交流、合作!(入联盟500人微信群,请把代表您能力和水平的PPT及姓名、单位、职务、联系方式发chenxinhe2020@126.com。详情请订阅微信公众号:软件定义世界(SDX)后,查询500)
【中关村大数据产业联盟主旨与目标】
落实国家战略,聚合产业势能,促进商学互动,
助力企业成长,倡导数据伦理,探寻数字文明。
【中关村大数据产业联盟活动】
〖大数据100分〗以500人圈大数据技术、资本、专家和政策专业人士为依托,每晚9点进行的线上活动。
〖大数据地平线〗以大数据执委会和中关村大数据产业联盟成员为依托,进行的走入企业现场调研活动。
〖大数据香山汇〗以“运动、分享、进步”为宗旨的爬山、PPT分享、研讨活动。
〖大数据沙龙〗以“数据驱动,创新未来”为主题的高端大数据沙龙活动。
【中关村大数据产业联盟联盟网站】
http://www.zgc-bigdata.org/
【大数据媒体方阵】
〖软件定义世界(SDX)〗、〖大数据文摘〗、〖大数据栋察〗、〖科技杂谈〗、〖CSDN〗、〖天云融创〗、〖大数据邦〗、〖199IT〗、〖大数据实验室〗、〖云里数里〗、〖中云网〗、〖云华时代〗、〖大数据问答〗等,目前已覆盖20多万订阅用户。
欢迎加入大数据媒体方阵,第一时间获得〖大数据100分〗等中关村大数据产业联盟提供的独家信息,请在公众号留言或加入个人微信号沟通。
【联系方式】
地址:北京市海淀区东北旺西路8号中关村软件园软件广场C座3层
电话:010-56380808
电子邮件:sdxtime@gmail.com
个人微信号:sdxtime
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。