如何正确的获取数据?
作者 | Will Koehrsen
翻译 | Lemon
出品 | Python数据之道 (ID:PyDataRoad)
如何正确的获得数据?
用一个案例来说明:数据科学中最重要的技能可能不是技术性的。
虽然数据科学的技术技能 - 比如使用梯度增强机器进行建模 - 获得大部分关注,但其他同样重要的通用解决问题的能力可能会被忽略。
熟练地提出正确的问题,坚持不懈,并利用多种资源对于数据科学项目的成功至关重要。但当人们询问成为数据科学家需要什么时,往往这些通用能力会居于编程能力之后。
最近,我想起了这些非技术技能在为良好项目开展数据科学工作时的重要性。 该项目目前在Kaggle上进行,涉及识别纽约市的学校,这些学校最有利于鼓励弱势学生参加专业高中入学考试(SHSAT)的项目。 此任务附带一个小数据集,包括2016年的测试结果,但组织者鼓励使用任何公开数据。
图2: 数据科学不仅仅是让人们点击广告
由于数据科学项目的成功与数据的质量和数量成正比,我开始寻找更新的测试结果。 毫不奇怪,在获取大量触手可及的资源的情况下,我最终获得了成功,并且在此过程中我学到了一些关于数据科学所需的“其他”熟练技能,我已在下面列出。
Step 1: 提出正确的问题 / 设定正确的目标
资源的广泛可用既是一种值得高兴的事情,也是一种令人烦恼的事情:有这么多的选择,有时很难找到一个起点(当人们想要学习数据科学时,这种现象经常出现)。 正确的问题或目标可以帮助您缩小选项范围。
如果我问“我可以使用纽约市的数据吗?”我会对这些可能性感到不知所措,就像那些“想要学习Python”的人面临着令人眼花缭乱的资源(更好的目标是“因为 XXX ,我想学习 Python “,因为它会限制选择)。
如果您没有在初始目标中取得成功,您可以随时投入到更广泛的范围或更改问题/目标。 此外,有时您可以使用与您的想法不同的数据集来回答您的初始问题,或者您可能会发现有一个更好的问题要问。 记住这一点,我用一个问题开始我的搜索:我能找到 SHSAT 的最新结果吗?
Step 2: 探索资源
在我的单一焦点问题中,最好的起点是纽约市开放数据门户。 与许多大城市一样,纽约市拥有大量的数据,可以在您的项目中免费下载和使用。 开放数据门户是探索问题和利用数据科学产生影响的好地方。
不幸的是,虽然纽约市的数据非常广泛,但没有一个涉及SHSAT。 所以我扩大了我的搜索范围 - 这意味着我进一步深入谷歌搜索结果列表 - 并且发现纽约时报的一篇文章正确地分析了我想要的数据(并且带有一些很棒的信息图表)!
图3: 文章中的几个交互式地图之一
Step 3: 获取资源
显然,如果NYT可以获得数据,那么这些数据是公开的。 由于我已经检查过开放数据门户,我决定尝试更直接的方法并联系作者。
我以前用这种方法取得了成功 - 我曾经通过给作者发送电子邮件获得了一本已经绝版的免费大学教科书 - 现在很容易找到社交媒体或专业的联系地址。 只要你的要求是民用(civil)的,大多数作者都愿意提供帮助。
但是,在这种情况下,我的直接方法失败了,因为作者没有对我使用的任何渠道做出回应。 说实话,我并不怪她:作为一名作家,你可能很难处理所有要求,我宁愿她专注于撰写更多的文章而不是回复每一条评论!
Step 4: 坚持
成为数据科学家最重要的部分之一是能够关注细节。 有价值的信息可以隐藏在意想不到的地方(例如文件名)。在这种情况下,阅读信息图下的细则找到了来源:纽约市教育部,我已经通过开放数据门户搜索到这些数据了!
图4: 始终注意阅读细节
虽然我已经尝试过这个来源,但我回到了门户网站并决定从联系页面提出请求。 我提交了一张包含我想要的具体数据的请求,并收到了一个稍微令人沮丧的说明,可能需要长达2周才能收到回复。
幸运的是,这似乎是一种悲观的过高估计,在2天之内我得到了回应 - 来自一个真正的人类! - 我要求的数据可用。 同一天,完整的数据出现在纽约市数据门户网站上,全世界都可以免费使用,以便纽约市学生受益。 将数据公开没有任何障碍,但需要有人来提出需求!
Step 5: 分享它
虽然这个项目从技术上来说是 Kaggle 上的一个竞赛项目,但我无法保密这些数据的可用性。 我立即建立了一个讨论小组并共享了数据源的链接。 几小时后,其他数据科学家就将这些数据用于自己的分析,然后分享他们的发现。 这就是数据科学界的伟大之处:它不是关于竞争,而是关于相互学习。
一个人拥有的经验有限,但社区的集体智慧可能是巨大的。 这意味着当你发现一些有趣的东西时,不要把它留给自己,而是分享它,以便其他人也可以学习! 从 Kaggle 的其他数据科学家那里收到了很多东西后,能够给予一点回报感觉很棒。
这个小例子说明了几个关键点:首先,提出问题永远不会造成伤害! 我以前写过这个,但是当你要求别人帮忙时(只要请求是合理的),他们可以给你的最坏情况就是不答应你的请求。
其次,使用多种资源并保持持久性的能力将比您职业生涯中的任何特定技术技能更有用。 我采取的任何步骤都没有涉及任何编程,但如果没有完成它们,我就不会得到我需要的数据来进行分析! 最后,不要害怕向人们寻求帮助或使用我们现有的任何优质资源。
原文:
https://towardsdatascience.com/how-to-get-the-right-data-why-not-ask-for-it-d26ced1bbd46