“社会感知”--理性地“感知”我们的城市
点击蓝字,关注我们
每一篇都有“干货”
我们如何研究城市
城市是什么?
若以广袤无际的地球为参照物,城市显得渺小而微不足道;但以个人为参照物,城市则显得庞大而纷繁复杂;占地面积小的城市,特别是大型城市却集中了大量人口,与此同时产生了一系列问题,拥堵,污染,居住……
(图片来源:网络)
因此步履匆匆的都市人们哀叹,城市定义了规则,固化了我们;却也提供了无限可能,让人抛不下也离不开……
我们生活的城市机理到底如何,它们要怎样才会变得更好?从地理学的角度出发,或许能够得到一些答案。
(图片来源:网络)
从地理学者的角度来说,城市是人类活动最为集中的区域,也是各种地理大数据产生最为密集的区域。城市研究、城市规划管理具有重要的意义。地理数据是描述城市、分析城市、规划城市和管理城市的基础数据。
大数据的浪潮汹涌而至,地理大数据的概念也随之出现。实际上,带有位置信息的签到、照片数据和出租车、共享单车等轨迹数据亦多产生于城市空间。地理大数据出现以前,多采用针对物理空间的静态指标来表达城市的空间格局的局面;地理大数据出现之后,城市空间表达出现了新的机遇,“社会感知”的概念应运而生。
什么是“社会感知”?
字面意义上的“感知”包括两个层次:“感”与“知”。它可以表示利用感官对物体获得的有意义的印象;也可以在哲学语义中用于表达感觉与知觉的统称。
(图片来源:网络)
而社会感知(social sensing)是指借助于各类海量时空数据研究人类时空间行为特征,进而揭示社会经济现象的时空分布、联系及过程的理论和方法。
是否可以认为,社会感知,既是对社会现象的感知,也是利用社会数据的感知。来自社会,又用来解析社会。因此,与主观的人类感知不同,社会感知是一种理性的“感知”方式。
如果想要更深入细致地了解社会感知和城市空间分析的概念,我们向您推荐北京大学刘瑜教授发表于《武汉大学学报·信息科学版》2018年第3期的学术论文《集成多源地理大数据感知城市空间分异格局》。
在这篇论文中,作者
指出社会感知数据提供了从“人-地-静-动”4个维度刻画城市分异格局的途径。
梳理了不同类型大数据(出租车数据、社交媒体数据、大数据与小数据等)对于表达这4个维度特征的支持,并借鉴“生态位”模型,通过北京市城管执法事件的空间分异格局实例研究展示了集成多源数据量化城市空间分异特征的应用。
讨论了地理空间的分析单元的选取等理论问题,为后续研究者的工作指出了可能方向。
除此之外,作者还在文中提出了许多值得思索的问题,例如:大数据手段成本低、数据量大,但在代表性、精度等方面存在不足,城市范围不大时采用常规数据采集手段(如出行调查)亦可获取,并且精度更高,此时应如何看待大数据在城市中的应用?
本文发表于《武汉大学学报·信息科学版》2018年第3期,您可扫描下方二维码阅读全文:
刘瑜, 詹朝晖, 朱递, 柴彦威, 马修军, 邬伦. 集成多源地理大数据感知城市空间分异格局[J]. 武汉大学学报·信息科学版, 2018, 43(3): 327-335
通讯作者:邬伦,博士,教授。
以下为详细解读。
note
1
城市空间分异格局的指标体系
本文从时间与要素两个维度构建城市特征指标体系。
图 1 城市特征指标体系
该体系中,纵轴为城市的要素维度,两端分别为人与地。
人与地是城市研究,乃至地理研究的主体要素。时间维度则关注在不同时间尺度下城市特征所展现出来的不同含义。两条轴线划分出四个象限。
第一象限:基于人的动态系统
它关注城市中人群的活动/移动特征,包括城市利用、居民活动空间与设施可达性等内容,展现出人在城市中的动态过程。
第二象限:基于人的静态系统
即城市人口系统,包含居住、就业等内容。
第三象限:基于地的静态系统
即关注城市建成环境,主要通过土地利用、交通设施布局方面体现。
第四象限:基于地的动态系统
,即城市运行系
统,交通、设施利用、市政运行等是其主要内容.
在城市特征指标体系中,4个部分之间并不是完全割裂的,而是相互影响,从而形成完整的系统。
note
2
集成多源地理大数据量化城市特征指标
根据图1所示的特征指标体系,大数据主要提供了对于人的动态特征的感知表达能力。目前的研究多采用对城市空间进行划分,然后量化不同空间单元内的人群行为特征,并对空间单元进行分类的研究方法,主要包括以下几个方向:
1) 不同类型地理大数据反映了相应活动(如手机通话、搭乘出租车)事件点的空间分布,假定在不同位置的人群在一段时间内进行某类活动的比例相近,则可以用大数据所提取的点分布作为人口分布的估计。
图 2 基于百度定位数据所估计的北京市人口空间分布
如图 2所示,利用百度移动应用的定位数据,可以展示北京市的人口空间分布模式。在此基础上,考虑到城市不同用地单元在一天内不同时段的人数变化特征存在差异,并且呈现较强的日周期变化规律,可以基于不同单元的活动量变化曲线对城市用地进行分类。
2) 随着社交媒体的广泛应用以及人工智能技术的发展,人们可以获取大量的具有时空标签的文本及照片数据,并分析其中蕴含的语义信息,这种语义信息反映了人们对于城市内不同地理单元关联的认知和感受。基于文本的工作如利用Twitter数据分别开展的幸福情感和抑郁情感的度量及空间分布研究,利用Twitter数据揭示伦敦市人口与地理环境的分异格局。而在基于照片的研究中,利用谷歌(Google)街景图像以及照片共享网站的图像分析不同城市环境给人的感受差异成为最近的一个研究热点。
3) 地理大数据可以量化地理单元之间的空间交互强度。除了采用网络科学方法构造空间交互网络以识别城市空间结构外,空间交互也反映了一个地理单元的二阶特征。对于一个地理单元而言,其一阶特征是指自身具有的属性,如基于大数据所感知的活动时间变化曲线等,而二阶特征则是基于其与其他地理单元空间交互模式所表征的特征,它反映了在城市流空间中一个地理单元扮演的角色。因此,综合考虑一阶特征和二阶特征,可以更好地刻画城市空间分异。
上述3个方面的研究主要是基于单一地理大数据开展。集成遥感和社会感知数据,有助于人们更为全面地理解地理环境。
值得指出的是,对于上述城市特征的刻画,采用常规数据采集手段(如出行调查)亦可获取,并且精度更高。大数据手段在具有成本低、样本量大的优点的同时,在代表性、精度等方面存在不足,因此在实践中,一方面要重视大数据的数据质量问题,另一方面也要研究大数据和小数据的集成,实现地理大数据支持下的“指标替代”计算方法,即利用大数据,经过合适的分析方法,得到可以替代传统方法获得指标的近似并加以替代,从而构建大数据支持的城市管理和规划流程。
note
3
实例研究
城管执法事件的时空点分布与城市环境存在一定关联,反映了城市脏、乱、差区域的分布。如何基于城管执法时间点的空间分布特征,构建其与相关城市特征之间的关联,进而理解其空间分异格局,是城市社会感知研究中的重要议题。
3.1 原 理
生态位模型一般被狭义地定义为以已知样本点(如野外调查或标本记录等)为基础, 分析物种在生态位空间或环境空间中的特征, 进而研究物种的环境耐受能力,在预测物种分布、气候变化对物种分布的影响等方面都有广泛的应用。
城市可以视为一个有机体,城市中不同的公共设施、商业设施,以及城市居民活动都对应于不同的城市空间环境;反言之,城市内部的地理空间分异也为不同设施及活动提供了相应的“生态位”。因此,人们同样可以在地理大数据支持下,构建基于“人-地-静-动”4个维度的城市环境变量的生态位模型,分析和预测设施及活动在城市空间的分布格局。
本文将利用2015年北京市城管执法事件在城市的已知分布特征,以相应区域的出租车上下车点数据、兴趣点(points of interest, POI)数据、交通便利条件等刻画城市环境特征,进而发现城管执法事件在城市其他区域潜在发生的可能性。
3.2 数 据
预处理后的城管执法案件示例数据见表1。
本文认为城管执法数据并不能发现所有的城市违法事件,因此必须利用合适的机器学习方法,找到已知城管执法事件存在的主要影响因子,并对城市中未被发现的城市违法事件进行预测。为了计算方便,将北京市六环范围内划分为11 664个500 m×500 m的网格作为分析单元,其中存在城管执法事件的网格数为277个,执法事件数目由1到35不等,执法事件的空间分布如图 3所示。
图 3 城管执法事件在北京市的空间分布
为了解释城管执法事件关联的城市环境,从POI数据、出租车上下车点数据、地铁出行距离等多个维度构建城市人类活动模型。
城市中POI点的分布能够很好地反映城市结构及功能分区,是通过城市特征指标体系中“地”的维度来描绘城市。本文采用的POI数据描绘了城市设施的静态特征,包括住宅区、写字楼、学校、医院、商场等,共计84种类型,407 971个点(见图 4)。
图 4 不同类型POI点在城市中的空间分布
出租车数据可以作为计算城市居民出行特征的“替代指标”,反映了人在城市中的活动。对一天内的出租车上下车点数据进行分析,是从城市特征指标体中“人”和“动”两个维度来描绘单元特征。地铁出行距离可以反映城市各区域的交通可达性,是从城市特征指标体系中“地”与“动”两个维度来描绘城市。
对2013-05-13-2013-05-19一周时间内,17 000辆出租车轨迹数据进行预处理,汇总得到工作日和休息日每小时网格内的上下车点均值,共计96个图层。对于每个分析单元,其上下车次数的日变化曲线反映了城市用地功能的特征,图 5展示了国贸区域的活动曲线。
图 5 国贸区域出租车上下车每小时均值
为了刻画“地+动”方面的特征,研究采用到最近地铁站点的曼哈顿距离来刻画相应地理单元的空间可达性,该变量命名为MHT,其空间分布如图 6所示。
图 6 城市各区域距最近地铁站点的距离
将上述数据汇总到数据表,一共得到181个解释变量,包括POI(84)、出租车数据(96)和MHT。利用机器学习方法构造0-1分类模型,其因变量是一个单元格是否存在城管执法事件。值得指出的是,在实践中,可以引入其他类型数据用于刻画每个分析单元“人-地-静-动”维度的特征,如社交媒体签到分布及主题特征、照片语义等,从而提高分类和预测精度,由于本文实例主要目的是为了展示研究思路和方法,因此没有考虑更多解释变量。
3.3 方 法
随机森林是一种基于分类树的算法,它具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。考虑到随机森林方法的优势,本文采用它构建城管执法事件与城市环境特征之间的关联模型。
3.4 结 果
对区域内是否存在城市违法事件进行预测。城市违法事件的有或无,受到人类城市活动的影响。因变量为城管执法事件,解释因子则需要在181个变量中进行选择。通过特征选择可以去除大量冗余和不相关特征信息的干扰,有效降低特征空间的层数,从而提高对目标函数的预测性能。本文采用随机森林的Boruta算法对模型的特征打分,获得重要性较高的特征变量。如图 7所示,最终选择排名前14的特征,包括MHT、4个POI点及9个出租车上下车变量,进而基于选取的解释变量,预测研究区内所有网格存在城市违法事件的概率。
图 7 解释变量重要性排序
为从实验得到的概率中选取最佳的临界值来识别网格区域内是否会发生城管执法事件, 本文基于预测概率与已知城管事件的标签,将概率设定出多个不同的临界值,生成精度回归曲线(precision-recall curve, PR)如图 8(a)所示。PR曲线是准确率和召回率的点连成的线,可以指导确定分类阈值。本文希望准确率高,即预测到发生城管事件区域都是准确的,因此假阳性对应的单元区域即为潜在可能发生城管执法事件的区域,通常城市环境较差。根据图 8(a),取受试者工作特征曲线(receiver operating characteristic curve, ROC)最佳临界值0.063时,准确率为0.514。将最佳临界值调高到0.1,此时的准确率为0.887,Kappa系数为0.906。图 8(b)展示了预测结果的空间分布,其中红色单元(假阳性区域)表示潜在城市违法事件发生的网格单元。
图 8 基于随机森林算法预测结果的PR曲线以及城管事件点的空间分布
3.5 验 证
为了验证模型预测结果,根据六环区域内各网格存在城管执法事件的概率,取百度街景照片进行验证(见表 2),发现预测与城市真实环境比较吻合,即城管执法事件高发区域与城市脏乱差区域相对应。
表 2 预测不同概率发生城管事件点的单元对应百度街景图片
note
4
讨论与结论
从个体尺度的时空数据出发理解地理空间时,不可避免地需要空间聚合的操作,也就是将个体数据映射到预定义好的规则或不规则的空间单元之上。目前大部分研究使用面状单元(泰森多边形、格网、行政区等)来生成聚合层面的数据集,然而很多分析单元的定义是与实际研究场景不契合的。将采样数据从小计数地理单元聚合成更大单元的数据处理问题,即是地理学著名的可塑性面积单元问题(modifiable areal unit problem, MAUP)。
部分研究对时空数据的预处理首先是对城市空间进行等距离的规则格网划分。例如,在研究城市内部人类群体的空间分布或交互模式时,常见的划分城市空间的格网大小为250 m、500 m和1 000 m等尺度。
另外一些研究基于不规则的空间划分方式来研究城市空间内的人类移动模式。例如运用手机基站构建泰森多边形来分析手机通话数据中体现出的嵌入空间网络社区分割以及城市人口职住分离等现象。
另外也有研究指出,城市空间内的物理移动受到道路网络的约束,街道是人们观察和理解城市意象的主导认知元素,因此将街道作为捕捉城市动态和理解城市分异格局的基本单元,在定量城市科学中也具有其独特的价值。
另外,采用自下而上的聚合方式,以模拟的方式生成空间分区,从而发现地理分析单元,是一种相对更加自然的尺度发现方法,但仍然受到相关模拟参数的主观影响。
总体而言,集成多源地理大数据感知城市空间分异格局时,研究单元的选择是缺乏规范的标准和参考的。不同空间单元对城市格局理解造成的影响有待跨尺度和跨单元的定量实证研究进一步探索。
表达和理解城市内部的空间分异格局是一项基础工作。多源地理大数据为地理现象的分布格局、相互作用及动态演化提供了前所未有的社会感知手段。城市是人类活动最为集中的区域,产生了多种地理大数据,并支持对于城市城市空间的理解。城市内部的分异格局是城市研究和规划所要面对的重要议题,社会感知数据提供了从“人-地-静-动”4个维度刻画城市分异格局的途径。本文梳理了不同类型大数据对于表达这4个维度特征的支持,并通过一个实例研究展示了集成多源数据量化城市空间分异特征的应用,最后讨论了相关的理论问题。本文从时间与要素两个维度构建了刻画城市内分异格局的指标体系,梳理了常见地理大数据对于获取上述指标的支持能力,并通过一个实例展示构建多指标刻画城市分异格局的意义。结果表明,结合多源地理大数据以及传统空间数据,运用社会感知思想,有助于全面地感知城市空间分异格局。
制作:王晓醉 审核:张淑娟
学报现已开通作者QQ群:753736859,欢迎投稿作者加入!
【相关阅读】
人工智能来势汹汹,传统测绘去向何方?每个测绘人都应该看看这一篇
学术|权威|科普|有趣
国际影响力优秀学术期刊
EI索引源刊
中国精品科技期刊
全国高校百佳科技期刊
Website:http://ch.whu.edu.cn
E-Mail : whuxxb@vip.163.com
✬如果你喜欢这篇文章,欢迎分享到朋友圈✬
如需转载到其他公众号,请在文末标注:来源《武汉大学学报·信息科学版》并附二维码。
评论功能现已开启,我们接受一切形式的吐槽和赞美☺
学报现已开通作者QQ群:753736859,欢迎投稿作者加入!
点击“阅读原文”直接查看本篇论文