干货分享|数据驱动的地理学 Data-driven Geography
引用:Miller H J, Goodchild M F. Data-driven geography[J].GeoJournal, 2015, 80(4): 449-461.
这篇文章的两个作者可是鼎鼎大名,搞地理学的应该不陌生,Miller是俄亥俄州立大学教授,在地理信息科学尤其是交通地理信息方面很有名,Goodchild基本上可以算目前地理信息科学领域第一人了吧,加州大学圣塔巴巴巴拉分校(这可是涛哥心中的圣地啊^-^ )的教授,美国科学院院士,地理信息科学这概念就是他老人家首先提出来的。
文章的题目很吸引人,“大数据”是近几年非常火的概念,数据时代已经来临,大数据开始影响社会各行各业,那么在地理学的研究领域会引发什么样的变化呢,数据如何驱动地理学的研究呢。文章从大数据的概念开始,重点分析了用数据驱动地理学研究所面对的主要挑战是什么;在数据驱动的地理学研究中的理论扮演什么样的角色;以及大数据技术如何融入到地理学的研究中。
大数据的“大”不仅是指数量多,它体现在三个维度上,“3V”,volume:采集和存储的数据数量;velocity:数据获取的速度;variety:获取数据的类型。
目前人类获取数据的能力是前所未有的,但是多了也不一定就好,有个比喻很形象,感觉“就像从消防栓里喝水”,我们可能已经进入了第四个时期——数据驱动的科学,区别于之前的个体观察驱动,理论发展驱动、计算模拟驱动的科学研究。不过地理学其实在很多年以前就面临着“消防栓喝水”的情况了,70年代Landsat就开始为我们带来超出我们分析能力的大量数据了,但是今天的大数据不仅仅是数量的问题,它的种类变得更加多样化,包括社交媒体、群体共创、地基传感器网络、监控摄像头等等,并且其获取速度非常快。
大数据正在催生一种新的科研方法论,数据已经不仅仅用来校正、验证和实验,而是变成整个分析的驱动力,所以,在数据分析师的脑海中,数据变成了从真实世界传输过来的具有很宽波谱范围的高速数据流,我们可能会进入第四种科研范式:研究方法是根据数据设计的,而不是像之前那样数据去满足研究方法的需求。
在《大数据:将会改变我们的生活、工作、思考的革命》这本书中提到了大数据对科学研究的三大挑战,具体到地理学的研究中是什么情况呢?
(1)总体而不是抽样。之前学者们研究发展抽样方法用以应对数据和信息超负荷的问题,随机抽样的方法不错,但是很脆弱,它的一个基本前提就是抽的样必须有代表性,那么不同的研究内容需要的采样率就不一样,为某一项研究准备的采样数据用于其它的研究可能就不合适。但是另一方面,我们选用总体数据进行研究,也不是就没有问题,举个例子,有时候是没有抽样,但总体数据本身就存在自选择的问题。我们收集的推特数据,其中只有一部分是具有地理位置信息的,我们对于发信息的这群人的人口学特征是不清楚的,因此也很难把一些研究结论推广到更多的人群。
还有一个在志愿地理信息(volunteer geographic information)研究中的例子,社交媒体比如Facebook能够很好的反映人口分布特征,但是并不一定能很好的反应人们的生活,大家在参加音乐会或者听讲座的时候愿意晒信息,但是你要是夜里10点以后在酒吧呢?所以这些信息可能并不能反映人们全部的生活,或者仅仅反映的是人们愿意展示到社会环境中的生活。
(2)混乱而不清晰。 新的数据源往往比较散乱,结构混乱没有质量控制,我们至少有两种方法可以去应对,一个是将数据用于对数据质量不敏感的研究,比较软的科研领域,初期的研究领域概览,预定假设条件,定性研究。另外我们可以试图去清理和验证数据,实际上在传统的地理信息获取中,数据是经过数据采集分析人员的综合的,比原始数据精度更高,但是这种综合处理一般是没有表现出来的,但是在大数据时代这种综合处理将会更加清晰和关键。整理和验证这些混乱的数据主要有三种策略,(a)基于人群的解决方案,原理就是莱纳斯法则,“只要有更多的眼球关注,最终的产品就有更好的精度”,例子就是维基百科,开放的贡献编辑在自动编辑程序的辅助下就能产生比较准确的结果。(b)基于社会的解决方案,由自愿参与的主持人和信息传递者组成一种层次结构,根据不同个体的行为记录和他们贡献的准确度,把他们任命为这个层级结构中的不同角色,如果产生了争议和疑问就反映到上一个层级进行处理。我个人感觉这好像有点类似于国内的字幕组的情况。(c)基于知识的解决方案,主要是将获取的数据和已知的地理世界进行对比,检验其一致性,将来这种对比可能变成自动的,接近实时的,比如说入口匝道一般与主路的夹角是小于30度的,利用这个常识就可以检验获取数据的真实性。这种基于知识的解决方案关键的挑战在于如何将我们掌握的地理知识公式化。
(3)相关而不是因果。传统的科研关注事物产生的原因,单纯的相关往往是不够的,因为存在相关并不表明一个变量的改变就必然引起另一个变量的改变。长久以来,科学界对单纯的研究相关性而没有研究因果关系,或者没有给出足够的解释是嗤之以鼻的。但是无论如何,相关性在预测方面是有价值的,尤其是你如果认为这种相关性在研究数据以外也具有普遍性。虽然单纯的研究相关性并不够,但是因果和解释性也并不是所有科学研究的必要条件,比如像空间分析领域,地理信息科学领域的文献中有很多关于发现模式,数据可视化,从数据中发现信息的研究,这些工具在数据驱动的科研中是很有价值的,而回答“为什么是这样”可能并不那么必要。
在Wired杂志上有一篇引起热议的文章,Anderson认为数据的洪流已经使我们的科研方法显得过时,我们目前的这种科学模式即将进入尾声。以生物学和物理学为例,现在的研究进展已经进入超现实阶段,越来越难以解释,在接下来的进程中,解释可能并不是必须的,相关将接替因果,在缺少一致的模型、理论、机理解释的情况下科学也可以进步。
数据驱动的研究可能将产生一种转变,从普适的通用的研究变为针对某一特定环境的研究。这种转变有一些明显的好处,Batty就曾指出城市规划和城市研究在数据不丰富的时代,主要关注的都是那些长时间段内,大规模的激进的变化而不是那些着眼于本地的,小区域的一些改变。数据驱动的城市科学能够更加关注城市局部的、日常的变化,进而有可能在改善城市病方面取得进展。
类似于上面提到的,从普适的通用的研究变为针对某一特定环境的研究,其实地理学早已经在“寻求法则”和“寻求描述”之间经历了相当漫长的过程。从早期的洪堡、李特尔到区域地理学派、地理学危机、计量革命,到后来Goodchild认为GIS融合了两者,软件和算法是基于法则的,具有普适性的;而其数据库是基于描述的,具有特异性的。
在重视数据的地理知识获取方法中,我们似乎回到了地理学早期的基础,“寻求法则”和“寻求描述”两者都不会是压倒性的优势,地理学可以建立统一的法则,但是又跟具体的空间位置有关系。所以,数据驱动的地理学研究理论跟传统的地理学研究理论并不会产生明显的断裂。
如果我们接受了上面的这个前提,就是大数据和数据驱动与地理学中长久以来的主题和理论基础是和谐的,那么这种数据驱动的研究方法怎样融入到地理学研究中?用数据驱动的方法去支撑地理知识发现和空间建模所面临的问题和挑战有哪些?
(1)数据驱动的地理知识发现。地理知识发现是指研究的初期状态,提出概念观点,建立待检验的假设条件,开展基础工作支持知识构建。对于这个阶段,数据驱动并不是革命性的新方法,应该是对现有处理过程的加强,像是望远镜和显微镜能够使我们注意到更多隐藏的事实。
数据驱动的知识发现的哲学基础,就是“溯因推理”,从用数据描述到最终用一个假设去解释数据。它是“演绎推理”和“归纳推理”的一个弱形式,演绎推理得到“X肯定是真的”的结论,归纳推理得到“X是真的”的结论,溯因推理只能得到“X可能是真的”的结论,即便如此,溯因推理在科学领域也是很重要的,尤其是在知识构建的初级阶段。
我们要进行数据探索和模式发现,还要面对的一个困难就是大数据的数量和复杂性,我们可以用背景知识和兴趣度量来应对,背景知识指导我们发现合理的新奇的模式,兴趣度量可以从简单性、确定性、用途等维度过滤那些伪模式,不过这两个方面的实现同样依赖于我们上面提到过的“地理知识的公式化”。
(2)数据驱动的建模。传统的建模方法是对理论进行“演绎推理”后,得到一个正式的表达,它可以对现实世界进行预测,也能够被数据验证。数据驱动的建模是不一样的,它对数据进行“归纳推理”从而得到模型。这也存在不少争议,因为模型能否对现实进行预测变成了检验模型的唯一标准,而模型的解释性则变得无关紧要。在地理学中同样存在这种争论,Stan Openshaw非常支持利用计算机直接分析数据,从而构建空间关系模型,比如地理分析机(Geographical Analysis Machine, GAM),它不需要任何理论假设和先验知识就可以进行区域聚集和热点分析。
对于这种忽略理论的建模,一个问题就是在寻找解释性模型的过程中效率可能很低。因为理论会告诉我们去哪寻找解释,或者至少是不用去哪需找,比如,在一个特定的空间关系建模中,就能通过尺度分析理论提前剔除掉一部分选项。虽然计算机的高性能以及聪明的算法可以增加我们成功建模的机会,但是数据的数量、种类和更新速度也在快速增加,在这两者的军备竞赛中谁是胜者还难说。
这种忽略理论的建模的另一个问题在于并不能保证从不同数据中得到相同的模型,即使是相同的数据集,也可能得到不同的拟合的很好的模型,拟合优度标准的微小变化就会导致得到差异巨大的最优模型。这其中就会遇到统计中的过度拟合问题,这是数据归纳分析技术中的一个普遍问题,比如人工神经网络和机器学习,2013年的《经济学人》提到一些研究表明3/4已发表的机器学习领域的科研论文都是有问题的就是以为其过度拟合。
忽略理论的建模的第三个问题在于结果模型可能非常复杂。传统科学研究的一个原则就是,用最简单的模型解释尽可能多的问题,比如大家熟知的奥卡姆剃刀原则:“两个同样效果的模型,简单的那个更好。” 模型的解释性是一个没有正式的要求,但是是对模型非常关键的一个检验,模型的建立者必须能够从现实解释模型的结果。但是从数据计算并进一步根据预测结果进行微调得到的模型对人类的大脑来说已经过于复杂了。例如Openshaw的自动分析系统得到的空间关系模型就非常复杂(见下图)。
数据驱动的模型是复杂并且不可压缩的,只有数据才能解释它。如果这种解释是不能被人脑所理解的,那么我们还能否有自己的解释呢?也许是这种解释也在进化;也许是电脑作为数据驱动科学的基础,并不仅仅是发现,更是用一种超越了人类理解能力的复杂模式进行了表达;也许是像一些预测说的那样,这只是在我们人类能够融会贯通人脑和机器智能之前的一个暂时的状态。这很难说清楚,不过这让我想到了Nate Silver的警告,讲数据的故事而不是现实世界的故事,这是非常危险的,这会把我们引向错误的信号噪音。
最后一个问题是数据驱动的空间建模是去技能化的,会降低我们进行建模和分析的能力。把世俗繁琐的任务交给计算机可以解放人们去进行那些精细复杂的活动,但是有些时候,那些世俗繁琐的任务是非常关键的。例如,现在的飞行员缺少手动飞行的经验,使他们在面对自动飞行关闭的紧急状态下,显得手足无措。在Openshaw的自动空间关系建模系统的帮助下,分析人员在空间关系建模方面的能力就会下降,可能在组合优化方面的能力会提高。所以这可能就需要在教育和资格认证的时候要求地理从业人员具备这方面的能力,或者通过设计软件鼓励或要求分析人员具备这些基本能力。
不过我们在30年后重读Jerry Dobson于1983年写的关于自动化地理学的预言,一个让人印象深刻的内容就是,那些让人痛苦的麻烦事以后可能只需要按一下按钮。很多上了年纪的地理学家可能会想起当年地图制图的那些基础课程,今天我们认为很关键的技能会不会在明天就变得像钢笔,墨水那样无人问津,变成了小众的一些玩意了呢?
当地理学研究进入大数据的时代,最大的基础性变化不是数据的数量,而是数据的种类和更新速度,数据驱动的地理学是因应丰富的包含地理信息的数据流而出现的。伴随着数据驱动地理学还有很多问题都浮现出来,其中一些是本来就在地理学研究中长期存在的,但是,空间语境仍然会是地理思考的主题,并且也是各种方法背后的主要驱动力。大数据在地理知识发现和空间建模方面有潜力也有挑战,比如说如何将地理知识公式化用于清理混乱的数据和剔除伪模式,如何建立真实并且可以理解的数据驱动的模型。
资料来源:科学网博客 袁涛
本期小编:王新宇 王波涛
干
货
分
享