数据标尺下的城市新科学 | AI&Society第十期回顾
9月16日,第十期AIS系列活动在腾讯研究院成功举办,在这次活动中,李睿琪博士介绍了他们发表在Nature Communications上的工作。本文主要内容整理自现场演讲实录。
主讲人简介
李睿琪老师主要研究方向为城市大数据分析与建模、社会网络分析和流行病传播动力学。目前发表SCI、EI论文十余篇,引用80余次。相应工作发表在Nature Communications、Scientific Reports、PLoS One、Physica A等SCI期刊。目前是Scientific Reports 、PLoS One、Physica A等多个SCI期刊的审稿人。
在上一篇AI&Society回顾文章《永生的巨兽》中,我们介绍了李睿琪等人在城市生长与演化模型方面的工作,而本文将从研究方式的角度,探讨多样化的研究数据对于城市科学的革命性影响。
城市的本质:
人类交互的活动的外化
城市的本质:
人类交互的活动的外化
城市的本质是什么?其实这个问题并不容易回答。当我们要给一个事物下定义的时候,就必须要抓住它区别于其他一切事物的核心内涵。
从这个角度出发,城市的外在特征就不能作为定义城市的标准,因为它不停地变化:例如,在古代,可能所谓的城市必须要有城墙,这意味着这座城市具有一定的防御功能。在工业时代,可能工厂会取代城墙成为城市的必要特征,而在今天,我们公认的城市又都存在着大量的路网和种种基础设施,这些外在特征在不停地变化。那么在变化的特征背后,城市核心不变的内涵又是什么呢?
城市
李睿琪博士认为,城市或许是在物理空间上,人口与人类交互活动聚集的外化形式。
这体现为,城市承载了人类活动,同时城市也被人类活动所塑造;城市因人而生、由人构成,也为人而存;同时,虽然具体的城市会有兴衰甚至消亡,但因为人类的交互需求从古至今一直存在,所以城市一直都有其存在的必要性,大量的城市因此而持续繁荣。
因此,城市的本质与人类的交互活动密切相关,所以从感知人类交互的角度研究城市问题就成了李睿琪博士等人的切入点,而从数据挖掘与分析的角度入手,则能最为客观的反映人类的交互行为。
进一步,寻找客观、易获取而且能反映人类行为的数据并进行准确的分析就成了重要问题。
手机数据:
精确的个人行动记录者
在手机尚未被普及之前,科学家们只能通过其他的方法来研究人类的移动活动,例如在2006年,科学家们创造性的借助了50万张一美元钞票的流通来研究人类的移动。因为钞票的流动移动是由人的移动与消费所导致,最终科学家们发现人类的出行距离符合幂律形式,如图:
用一美元钞票来近似人的出行
随着手机普及,手机数据成为了一种便捷的、能客观反映人类行为的数据。这是因为通信公司会对用户的通信数据进行记录,这些记录包括用户活动的位置、时间等等,这些数据经过脱敏处理之后即可被用于科研分析。
手机数据的优势在于,其空间精度高(可以精确到200米左右),而且手机普及率和使用频率都非常高,即使在欠发达国家——比如非洲一些国家,手机的普及率也能达到近90%。但同时,手机数据也存在着一些问题,例如数据噪声较多,而且缺乏地点信息等。但总体而言,手机作为如今我们每个人形影不离的工具,其数据仍然可以很好地代表人们的行为信息。
Open Street Map
人人可用的开放地图
开放街道地图(OpenStreetMap,以下简称OSM)是一个线上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图。OSM的理念是打破大公司对地图数据的垄断,让地图数据为每个人所有,目前,OSM已经有220万注册用户,比较精确地描述了我们的现实世界,而且其它是开源的,可以为每个人所下载和使用。
OSM 可以为我们提供比较精确的城市路网数据,而这对研究城市交通以及城市中的人群流动都具有很重要的意义。
OpenStreetMap
夜光数据
——繁荣的尺度
越繁华的城市,夜景就越明亮绚丽,从飞机上看夜晚的城市,我们不禁感慨,城市就像是一个生命体一样!道路网络就像生命体的血管,而车流就像血管中的血液。城市越繁华,夜晚也越热闹,这个生命体看起来也越有活力。当然,这一切都被卫星的夜光遥感数据记录了下来:
卫星遥感下的北京、廊坊和天津
研究者们发现,夜光数据跟GDP水平密切相关。同时,也有研究者通过夜光数据与问卷数据结合的方式发现,夜光数据能对该地区人口的收入、资产情况进行比较好的预测。因此,夜光影像数据可以作为大尺度上衡量一个城市的经济情况的可靠数据。
从手机数据看人类行为
李睿琪等研究者对手机数据进行了大量的深入挖掘,例如用手机数据来做地点探测。他们做了一个假设:每晚10:00到第二天上午6:00最常访问的地点可以被认为是家的位置,而工作日中累积通勤长度最远的点则被认为是工作地点。当然,问卷调查支持这样的假设。
通过对手机数据的分析,研究者获取到用户到达某地点的时间以及在该地点停留时间的分布情况,如图:
人们到达某地的时间与在该地点停留时间的分布
在上图中,横坐标表示用户到达某地的时刻,纵坐标表示在该地停留的时长,其中图1表示家,图2则表示工作地点,可以看到,人们不论什么时候回家,都会在第二天早上约8:00离开家,同样,无论到达工作地点的时间如何,人们通常会在最晚22:00离开。
为了确保数据挖掘结果的有效性,李睿琪等人还使用了人口普查数据进行检验工作:用手机数据估计人口数量和普查数据人口数量进行对比验证,他们发现算法所估计的人口数量——无论是总人口数还是工作人口数,都和相应的普查人口数量比较接近,这表示他们工作具有很高的可信度。
估计结果与普查人口数据的对比验证
从手机数据,到地图数据,再到夜光数据,这三种数据虽然看似毫无关联,但它们分别反映着城市的某个侧面特征——从手机数据可以分析得出城市中人们的行为信息。开放地图数据表示了城市的道路网络,这是城市最为重要的基础设施之一。而夜光数据则与城市的GDP高度相关,反映了城市的经济发展状况。
随着多样化的数据在城市科学研究中的广泛应用,人们对城市的认识会不断深入,对城市中人类行为的观测和预测也会更加准确,这在带来城市科学进步的同时,也可能引发新的关于隐私、关于城市规划的种种争议。这是我们要进一步思考和解决的。
扫描二维码或点击文末阅读原文即可观看录播,另附PC端传送门:
https://campus.swarma.org/gpac=395
✎AI&Scociety学术沙龙简介
人类已经全面进入了智能社会,以人工智能为代表的新一代技术必将逐步渗透到我们的日常生活之中,并彻底改变我们的社会形态。那么,新一代的人机共生社会需要怎样的社会科学?社会科学的研究成果又如何促进人工智能的发展?人工智能会怎样影响人类社会?社会科学研究又如何借鉴人工智能领域的最新成果?
我们认为挖掘AI与社会领域有想法的年轻学者,促进AI与社会原创思想的交流与碰撞是探索、回答这一系列重大问题的第一步。因此,腾讯研究院S-Tech工作室与集智俱乐部共同打造了“AI&Society”的系列学术沙龙活动。
该系列沙龙以线下实体活动为主,我们将邀请AI与社会领域的交叉研究学者进行公开性的讨论与思想碰撞。沙龙的主题可涵盖但不限于如下的内容和主题:
计算社会科学(Computational Social Sicence)
社会计算(Social Computing)
多主体系统(Multi agent systems)
算法经济学(Algorithm Economy)
人工智能社会学(Artificial Intelligence Sociology)
群体智慧(Swarm Intelligence)
人类计算(Human Computation)
机器学习(Machine Learning)
技术与人类社会(Technology and Human Society)
人工智能与城市科学(Artificial Intelligence and Urban Science)
AI&Society 往期回顾
图网络——悄然兴起的深度学习新浪潮 | AI&Society第八期
人工智能时代,“经济奇点”即将来临? | AI&Society 第七期
全息计算打造“公司大脑”;简单规则驱动复杂系统 | AI&Society 第六期
侯世达:机器可以翻译但不能真正“理解” | AI&Society 第五期
大数据会暴露你的社会阶层吗?| AI&Society 第四期
颠覆式创新一百年&AI走进社会生活发展前沿追踪 | AI&Society第三期
作者:张章
审校:刘培源
编辑:王怡蔺
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!