你知道怎么找金融、咨询行业工作需要的数据吗?| 5分钟get新技能

查看原文

其他

你知道怎么找金融、咨询行业工作需要的数据吗?| 5分钟get新技能

2016-05-10 林骏翔 职问

● ● ●

做投行、行研、咨询等金融岗位，有没有什么好用的找数据技巧呢？快点往下翻翻看，常见的找数据存在的问题该如何解决。

● ● ●

一、如何找官方的数据来源？

找到了数据，却无法溯源，而数据不能使用的时候？数据说法不一，而没有一个官方的来源，无法抉择的时候？

这两个问题有些类似，都是需要找到一个官方的来源。

股票基本面财务数据：
当然最正统的来源是上市公司的年报：
上交所：
深交所：
港股：
美股：
更方便获取年报的网站应该是巨潮资讯网，当然单间公司也可以到公司的官网去下载。一般上市公司网站都有相关栏目。一般叫“投资者关系”。

官方经济数据：
统计局：
美联储：

石油：
OPEC：
（OPEC每月都会发布月度报告，这也是很多新闻的来源）
伦敦贵金属交易所：（伦敦金等）

外汇：
国家外汇管理局：
等等。有太多了，由于前面很多答主已经列举了很多来源，所以就不再花时间堆链接了，都大同小异。

方法：
主要说说一下个人找来源的简单方法，姑且叫它“关键字溯源法”吧。

其实就是从财经新闻中寻找那些关键字，然后在搜索引擎上寻找它的网站。除去一些伪相关等无意义的财经新闻外，一些新闻是由专业的财经记者写的，一些是引用一些业内著名人士的分析的，还有一些则是翻译外国的一些文件或新闻。在这些新闻内容中，多多少少会有一些机构组织名称（通常是英文名）是容易被我们忽视的，而这些恰恰是关键信息来源，甚至比你看的新闻更加客观。这是一个很久以前的可能不起眼的新闻，以它为例子：

文中列出了十大黄金矿商的产量（这里暂且不论新闻的真实性，如果需要验证的话，可以到相应国家的股市上看或在Google上查询一下，再严格点可以深入各个公司的年报细看。），这里提供了大量的信息：
1.十大黄金矿商的名称；
2.数据来源（左下角GFMS）。

搜索一下GFMS（外国网站当然用Google。虽然即使是中文也比百度满屏广告要好。）：

于是我们得知了它是全球领先的会金属咨询公司，如果还不放心数据的真实性（毕竟这是二手数据了），我们可以直接搜索公司的名称，年报是最标准不过的了。

比如搜索Goldcorp，进入其官网下载年报打开，所有的信息一目了然（外国的年报做得很精美）。

在这几百页的PDF里，你看到的就不仅是产量这么简单了。包括维持成本（All-in sustaining costs）等等。你也可以对它们进行整合得出数据：

如果对大宗商品感兴趣，从这方面入手也是一个切入点，也可以看看外国企业开采黄金的成本等等。可以作出一些调研分析。对于行研有一定的帮助。

如果你对看到的新闻追根溯源，能够发现很多对分析有用的东西，比如美国能源署EIA2015展望（现在应该2016了吧。）

2015世界风险报告


等等有意思的文件。

还有很多的东西可以去挖掘。

● ● ●

二、数据找不到，如何继续阐述问题？

有些数据就是找不到，不知道如何阐述某个问题的时候？

有些数据的确是找不到的，这时候就需要自己预测了。最常用的方法就是利用计量经济学的方法建立经济模型，根据已知的因素进行线性回归分析，进一步去预测某些数据。

之前见过一个人，在投行工作期间研究高速公路上市公司，需要未来几年计划铺设的公里数，有些政府网站会提供相关数据，但是有些政府网站并没有提供，网上也没有任何相关数据。最终他根据几个已知的数据，比如历史铺设的公里数、GDP增长率等等自己建立了一个经济模型进行预测，结果据说还挺准确的。

比较常用的统计软件就是Eviews、SPSS这些了吧。涉及到的具体问题比较复杂，也需要根据具体问题来分析。

● ● ●

三、数据库标价太贵，怎么办？

有些数据明明就有，却来自于某些咨询公司，标价动不动就是上千刀！

现有的数据库往往太贵，一般人承受不起。所以当一些数据可以从网页上获取得到，却没有相应的接口时，就需要用爬虫了。

1.Excel（相信很多人都会，不了解的可以看看）
Excel可以选择复制粘贴的方式，但效率较低，且无法更新。所以在Excel中调用数据是更为明智的做法。

优点：简单快捷，不需要太多的计算机知识；数据能够自动更新。
缺点：不使用大规模爬取数据；效率较低。

具体做法是：
在网上找到想要的表格数据

复制网站，打开Excel，选择数据-自网站

在弹出框的地址栏中输入网址，进去后，在需要的表格左上方会有黄色的框黑色的箭头，点击便是选中表格。

选中后点击导入就可以了。

2.爬虫+数据库（构建自己的数据库）
上面的Excel算个“小爬虫”了。但真正高效的还是得用程序编写。个人使用的是Python+MongoDB，当然使用其它的组合也可以。

优点：可以大规模的获取数据；效率高；可以构建个性化的数据库。
缺点：需要学习编程；可能面临反爬虫的问题等。

以我前几天做的举个例子，想要求出A股所有上市公司的资本回报率（Returnof Invested Capital ,ROIC），无奈它不是一个会计科目，也不是常用的财务指标，没发现有网站提供这个信息（提供了其实也得用爬虫，寻找的时间成本也高），所以需要自己计算。而完整的财务报表也没有免费的API提供，只有一些网页提供了。所以最终我写了爬虫爬了约5000个网站，搜集了约100000条的财务数据把它算出来了。

具体做法是：
(1)写出爬虫，将信息爬取下来。
具体对应的库：
网页操作：

urllib：

requests：

爬虫及爬虫框架：

BeautifulSoup：

lxml：
scrapy：
pyspider：

(2)将数据写入数据库中（调用方便快捷，可重复利用）。
数据库：

pymongo：
sqlite3：
MySQLdb：

(3)从数据库调出并作计算。
科学计算：
numpy：
pandas：
scipy：

(4)数据可视化。
画图：

matplotlib：

同时pandas也能够画图
（有时二三步也可调换，先计算好后将计算结果写入数据库。）

通过该种方法，就可以在各个网站上将需要的数据（可获取的或不可获取的）放进自己的数据库，下次需要调用的时候就可以轻易调用了。对于一次性的数据，甚至不用写入数据库，调用一遍并进行计算就可以得到想要的数据了。对于研究相关领域有很大用处。

注：本文来自知乎，原文作者林骏翔，转载已获作者授权。

想要查看更多关于技能干货？快点进入职问网站 zhiwen.me 提问、浏览吧。

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

布林肯国务卿与中共中央外办主任兼外长王毅在会晤前发表讲话

张连勇：人工智能生成物司法保护的挑战与应对

别以为是色情，其实都是哲理（深度好文）