创新突破!基于大数据&机器学习的城市用地功能识别方法与实践
派姐(城市数据派创始人)
“没被狗追过,没被保安盘问过,没被扣过的规划师一定不是成熟的规划师”,这句话体现了传统现状用地功能调研方法的诸多弊端,相信规划师对此都是深有体会!T_T
【百度慧眼宁波规划创新实验室】百度慧眼提出一套基于区域POI热度、人口、客流和区域间联系的功能区识别方法:依托百度地图POI、定位和道路等大数据,用静态POI、动态人口客流和区域间活动模式数据刻画区域承载的功能;宁波规划院在设计中提了很多建设性意见,并将功能区识别结果在城市规划实践中进行应用及验证,为后续该功能完善提出改进建议。
据了解,目前已完成北上广深和宁波的城市用地功能识别,将国内一线城市的用地功能数据进行了梳理,未来可以为同类城市提供全国用地功能评估服务。
在此感谢【百度慧眼宁波规划创新实验室】对城市数据派www.udparty.com的信任。欢迎各界投稿来撩,请联系info@udparty.com
【百度慧眼宁波规划创新实验室】
往期干货回顾,点击可查看详情:
1【百度慧眼宁波规划创新实验室】传统规划机构+互联网大数据平台落地!
3 【独家秘笈】传统规划院如何“勾搭”百度地图大数据(附成果节选)
4 【百度大数据人口统计全新探索】城市人口时空分布研究新视角新工具
5 【百度大数据运用】是时候检验实施现状与规划理想的差距了!
6 如何利用大数据摸清城市人口时空分布、社会属性、兴趣爱好?
本期重磅内容作者
如有疑问,敬请联系
阚长城 百度地图资深研发工程师huiyan@baidu.com
1 土地对城市规划的作用
什么是城市规划?从城市规划学科的本源来说,土地与空间是城市规划的最核心的问题。因此城市用地功能的识别与管控是城市规划最核心的工作内容。(城市规划收费指导标准也是按照面积进行计费的哦)。作为一个城市规划工作者,能否准确、高效的掌握城市用地现状、发展格局是决定着规划设计的科学性及准确性,城市发展现状调研尤其是用地使用现状更是占据了城市规划工作者大量的时间及人力。
既然城市用地功能识对城市规划行业有着如此重要的作用,那么传统城市用地现状调研是怎么进行的呢?简而言之主要靠人肉调研及部门资料调取为主。
2.1 以人肉调研及部门资料为主要方法
规划师从技术工作降维到体力活:
传统的用地功能调研中,规划师主要通过自己亲自前往现场调研的方式,人工分析记录土地现状。规划范围小、要求较高时,交通工具是两条腿,辅助工具是相机,如果碰到村庄、城郊项目还需要另备打狗棒一根。
某种意义上说,用地功能调研这一环节的工作将规划师从办公室高知白领直接降维到农民工规划师,体力不好的规划师还真不一定能胜任现状调研工作。负责任的说一句“没被狗追过,没被保安盘问过,没被扣过的规划师一定不是成熟的规划师”。
“拿来主义”的部门资料收集整理
与此同时,为了提高现状调研的采集效率及准确性,规划师通常需要前往相关部门调取大量资料用以加深对片区建设现状的了解,最常见的就是从国土部门调取地籍资料来了解土地出让的情况,更偷懒的办法就是从甲方规划局获取上位规划、老版本规划的用地现状图,在上面查缺补漏即可完成最新的用地现状识别工作。
2.2 缺点
传统用地功能调研的方法主要存在以下问题:
① 人力、物力耗时较长
按照笔者经验,按照两人一组的方式进行调研,老城区的控制性详细规划每个小组每天通常能够完成的现状用地调研量也就是1-3平方公里左右。笔者曾经负责对新疆某地的中心城区控制性详细规划进行调研,约30平方公里的现状建成区共有10余人进行了近1周。
② 单一用地属性,难以反映真实土地功能
传统城市规划中对城市用地认知识别是单一功能为主,但是相当一部分城市建设用地功能是多元的,居住用地混合商业用地、工业用地混合办公用地等等情况非常普遍。由于现有规范特别是《城市用地分类与规划建设用地标准》GB50137-2011对混合用地的概念就没有采纳,也使得规划师在调查、反映城市土地用途的时候基本只能使用单一维度来描述。
③ 受调研者的能力限制
如前文所述,城市规划中对现状用地的调研主要通过人为手段进行研判,主观性较强。在资料相对确实的情况下判断的准确性与调研人员的专业技术能力及工作经验有直接关系。笔者在项目组织过程中带领实习生及刚毕业同事开展了众多调研工作,很多时候不得不从用地分类标准的源头为他们讲解,告诉他们三甲医院用地与美容医院用地是不一样的,林林总总的经历可谓心力交瘁。
传统现状用地功能调研方法存在上述诸多问题,业内也在不断探索新的方法,目前主要有以下几种方式。
3.1 信息平台,无纸化办公,仍旧依靠人工识别
中国城市规划设计研究院2016年为了提升调研人员对实时信息(主要是位置信息)的处理能力,提高外业调查的灵活性、便捷性、协同性,同时提高工作效率开发了城乡规划移动调研系统(石亚楠,城市规划通讯 2016.20),该系统了基于微信和私有云的城乡规划移动调研系统,实现调研资料的实时采集、协同共享和有效管理。但从根本来说还是需要设计人员每一块用地亲自跑到,仍然需要大量人工识别工作。
3.2 遥感,数据获取困难,技术很难
同时随着高清遥感技术的快速发展,通过遥感技术对不同波段的遥感数据进行梳理,之后再使用面向对象分类技术对不同城市用地用途的光谱特征进行分析,最终得出城市建设用地的功能分布格局(王冰冰、杨鹤松、王军锋、徐成华,测绘与空间信息2015年38卷,如下图)。此类方法对数据源要求较高,需要获取多波段、高清遥感数据,同时在遥感数据的处理上技术难度也较大,用地功能识别的准确性仍有较多问题。
3.3 信令,数据成本高,识别维度有限
随着移动通信技术的提高及移动终端的普及,通过手机信令实时定位海量移动终端并分析移动终端的空间分布及活动规律成为可能。例如同济大学钮心毅老师(钮心毅,城市规划学刊、2014年6月,如下图)利用上海市移动终端信令数据分析上海市人群时空分布规律进而识别空间特征及商业网点分布。此类用地分析方法主要通过人群的时空分布规划及职住比关系对城市用地进行大致判断,但是空间精度及分类的精度均较低。随着三大运营商对手机信令数据安全日益重视,未来获得手机信令的难度及成本都会大幅度提高。
3.4 微博等数据,数据来源有限,维度有限
随着基于LBS社交软件的兴起,国内也有学者利用微博签到数据研究城市人口集聚及用地功能分布情况。借助新浪微博社区,引入大数据,从居民实际活动的角度对城市空间的分析,一方面丰富和扩展己有的城市空间研究方法,同时也能够更好的解读对城市空间结构的影响。南京大学王波(如下图)就利用该技术对南京市从空间等级、用地与活动关系及用地组织、空间流动性、功能区划四个方面分析。此类受制于数据源的限制,某些情况下数据的空间粒度较大,在实际应用中也面临了诸多限制。
为了最大程度的解放农民工规划师的工作强度,提高工作效率,降低误判概率,我们希望通过大数据的方法实现对城市用地功能的自动识别,真正实现上帝之眼,全国无差别覆盖,无人工干预。我们基于百度地图POI和定位数据,提出了:
基于区域POI热度、人口、客流和区域间联系的功能区识别方法
4.1 数据源
POI(Point of Interest),来自百度地图。
POI热度,根据百度地图的检索数据计算得出。
常住地和工作地数据,包括工作和居住人口,该数据来自百度地图。
客流数据,包括节假日和工作日客流,该数据来自百度地图。
导航起终点数据,根据百度地图相关数据计算得出。
4.2 分析步骤
我们基于百度地图的上述数据源,利用道路数据将城市划分成数个区域,然后分析每个区域承载的功能,通过区域承载功能反馈用地现状;区域划分完成,提取每个区域的特征进行计算和归一化,然后将特征向量输入模型训练,反复调参、优化和校验得到最优结果;最后进行功能区识别和评估。
功能区挖掘的准确性主要取决于特征数据,我们依托百度地图POI、定位和道路等大数据,用静态POI、动态人口客流和区域间活动模式数据刻画区域承载的功能,数据是我们最大的优势。
1、区域划分
基于百度地图路网数据,利用连通区域标识算法,把城市划分成数个区域。
2、特征选择
区域承载的功能区通过三个方面刻画:区域承载POI,区域承载工作居住人口及客流,区域间的联系通过人在区域间的活动模型反映。
3、特征计算
选取POI中能反映用地分类的POI,利用POI热度计算每个区域每类POI的TF-IDF值;计算每个区域居住人口、工作人口、工作日客流、节假日客流密度;利用上下车地点数据计算区域间的联系。
派友(一脸懵逼)
太高端!求百度大神出来解释下TF-IDF值是什么?
阚长城(百度地图资深研发工程师)
TF-IDF(term frequency–inverse document frequency)是指词频逆文档频率,那么词频指的是某一个给定的词语在该文件中出现的频率,逆文档频率是一个词语普遍重要性的度量;字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
4、模型训练
以区域为单位,将计算好的区域特征输入LDA、DMR和K-Means算法进行训练。
派友(再次受到了打击)
那LDA、DMR、K-means算法又是什么?
阚长城(百度地图资深研发工程师)
LDA(Linear Discriminant Analysis),潜在狄利克雷分布是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。
DMR(Dirichlet Multinomial Regression),狄利克雷多项式回归,模型因其参数中需要输入先验数据,使得实验结果更贴近现实情境,与基本模型LDA相比更有优势。
K-means,k-平均是无监督聚类算法,把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。
5、功能区识别
模型训练中使用机器学习中无监督的算法,如何对聚类结果进行功能标注是挑战,参考区域的各类POI热度排名、区域代表性POI和频繁出行模型,给每个区域进行功能标注。
6、结果评估
我们结合城市规划现状图和人为实际考察的办法进行结果评估,对宁波市进行了深入研究,具体如下。
5.1 宁波市中心城概况
宁波中心城区范围包括鄞州区、海曙区、镇海区、北仑区以及江北区,面积2560平方公里,是全市的政治、文化中心,金融、商贸、信息、科技、教育、旅游基地。
5.2 识别探索
以传统的城市规划用地现状图作为参照,核对基于机器学习识别的宁波中心城区的功能区。
5.2.1 城市功能结构的识别情况
按照城市功能区识别的步骤对宁波中心城城市功能区进行识别。宁波中心城区共划分为2637个单元,识别具体情况见表(1),其中公司企业功能单元最多,为799个,占30.3%,土地面积占比29.6%。其次为住宅区,为510个,占19.34%,土地面积占比13.587%。比重少的为机场、交通枢纽、自然地物等特殊功能类型。
表1 功能单元分类统计表
宁波中心城功能区识别图
城市功能区的空间分布情况与宁波中心城长期以来单中心发展的现实情况吻合,呈现明显的圈层结构。三江口为城市最重要的中心区,以商业、休闲娱乐以及公司企业功能占主导;向外是海曙老城区、老江东等城市生活功能区,是居住区最集中的地带,也是教育培训、医疗、公园、体育场馆、文化场馆等公共服务配套设施集中的地区。居住区外围环绕的是以公司企业、工厂以及交通枢纽等城市生产功能区,也是空间范围最广的圈层。
5.2.2 城市主要商圈的识别情况
城市商业功能区空间分布呈现大分散、中心小集聚的特征。三江口区域是商业服务业设施用地聚集的区域。一方面,目前宁波市的商业中心分布呈现以三江口商圈为核心,多个区级、副区级商业中心为辅的“单中心”格局;另一方面,商业设施局部扎堆建设现象严重,人口密集的三江片不少商业中心的辐射范围重叠,而西部、北部等近郊地区的商业中心覆盖率偏低。
城市主要商业功能区分布图
5.2.3 城市产业功能区的识别情况
在功能区识别的基础上,选取公司企业、政府机构、商业三类城市核心功能单元分析城市中心结构。在《宁波市总体规划》中提出建设以商业商务用地为核心的“两带三片双心”组团式的城市产业空间结构。根据城市功能区识别结果来看,老城区功能区块已经形成,但外地地区产业功能仍有待提升。
三江口地区工作人口集聚最高,其能级以及辐射范围是名副其实的城市主中心,南部新城副中心也已经形成。规划的东部新城主中心,北仑新城、镇海新城、等片区中心的工作人口密度较低,未能达到城市中心等级,宁波中心城的中心体系仍处于起步阶段。姚江新城、高桥、集士港等区域受土地资源约束,商业商务等用地大规模建设难度较大,有待新一轮城市总体规划与土地利用总体规划明确建设规模。
城市产业功能区分布图
宁波市总体规划产业功能结构图
5.2.4 偏差规律及偏差原因分析
以居住用地为例,将机器学习识别的主要功能与传统城市规划的现状用地性质进行叠加校验,发现现阶段机器学习的结果与传统调研方式存在一定偏差。经过区块实地建设情况的踏勘与分析后得出几点造成偏差的规律及其原因:
1、机器识别功能区与现状用地认定的标准不同所造成的偏差。
比如在城市规划的认知上,在建的居住用地从行政审批上已完成对于用地性质的确认,现状将认定为居住用地;而目前采用的数据源在这种情况下,机器识别更容易将当下现状功能作为本单元的主导功能。
2、机器识别功能区与现状用地分类依据不同所造成的偏差。
城市规划对于用地性质的分类按土地主要的使用性质进行划分,而机器识别的功能区主要依据实际这个单元在人的使用中更为主要的功能来确定此单元的主要功能。从居住用地的验证结果看,在居住用地存在有底商的形式且商业设施较为丰富时,机器更容易识别为商业设施,而城市规划现状认定为居住用地,这种情况在老城区比较明显。
3、功能区划分与用地划分的尺度不同所造成的偏差。
从规划上,地块的划分主要依据土地权属界线及规划审批所划定的边界为单元,而目前功能区识别的边界主要以现状道路为依据,这样导致两个偏差:
一、道路围合的区域内现状是两块不同用地性质的功能,但对于机器识别来说将会把更为主要的功能作为该单元的主要功能。
二、城郊等城市建设相对边缘的区域就会因为单元划定尺度较大,某类用地所占面积比重很低,导致该用地功能从整个单元上就被其他功能所覆盖。
5.3 结论
根据识别的结果和偏移分析的结果,从整个城市的尺度上看,对于城市总体的功能结构识别较为准确,从一定程度能反映城市现状发展的情况;在中心城区建设较为成熟完善的区域识别的首要功能较为准确,偏移的现象也较小。
6.1 方法创新点
通过百度地图大数据平台对城市用地功能识别主要有以下突破性创新:
1 本研究方法通过机器学习的方法对城市建设用地功能自动化识别实现聚类分析,避免了人工干预,能够相对客观的反映城市建设用地实际功能使用情况;
2 在建设用地功能识别过程中,对土地使用功能从多维度进行分析,将单一地块中各类型功能占比进行测算,更加精准的反映了土地功能复合情况;
3 依托百度地图大数据平台,城市用地功能识别可以实现全国范围内覆盖,数据更新周期可以实现15天一次更新,数据历史数据可以回溯3年以上时间,可以实现不同城市,不同时间维度的横向、纵向对比研究。
目前我们百度已完成北上广深和宁波的城市用地功能识别,将国内一线城市的用地功能数据进行了梳理,未来可以为同类城市提供全国用地功能评估服务。
我们认为在规划行业能辅助开展以下研究:
1)用地现状分析。
基于主导属性的用地现状功能生成,在此基础上可以开展城市用地复合属性评价。
2)规划实施评估。
对单一用地的使用强度、人口聚集程度进行比较。
3)城市开发边界的划定。
识别城市建设用地边界,为有效控制城市建设用地规模提供依据。
4)城市群职能结构对比分析。
宏观尺度对城市群的功能特征进行横向对比,了解区域城市协作与职能分工。
已完成的北京市城市用地功能识别
6.2 后续完善方向
在看到成绩及应用前景的同时,在用地边界识别上需要做以下完善,例如:
需要完善对城市河流水系的边界识别,更加精准的切分城市地块;
基于用地识别中间数据,如POI业态分布、居住工作人口密度、区域间的OD数据,深入分析用地开发强度、混合用地、区域间的交通情况等。
这里有好多大数据干货,
快到城市数据派官网看去