测绘学报 | 张彩丽:基于出租车轨迹的可导航路网构建
本文内容来源于《测绘学报》2021年第12期(审图号GS(2021)8291号)
2. 邵阳学院城乡建设学院, 湖南 邵阳 422000;
3. 国网思极神往位置服务(北京)有限公司, 北京 100000基金项目:国家自然科学基金(41771474;42071432);国家电网有限公司总部科技项目(5700-201919244A-0-0-00)
摘要:出租车轨迹不仅反映城市路网的静态几何与拓扑结构,而且蕴含转向等动态导航信息。考虑到交叉口的位置、拓扑连接及转向规则是构建可导航路网的基础与关键,本文利用出租车轨迹的空间分布与动态连接信息,采用“交叉口位置—路段几何—导航属性”的研究思路,提出一种交叉口引导的可导航路网构建方法。设计了一种顾及多模特征的交叉口集成识别技术,并引入随机森林算法,探索待定交叉口的零标注监督式去伪;在此基础上提出一种基于Delaunay三角网的多阶段路段生成方法;最后围绕交叉口,挖掘路段的转向及单双向信息,从而构建出可导航路网。与其他方法相比,本文方法在交叉口、路段及转向等可导航路网信息提取方面具有更高的完整性与准确性。
关键词:出租车轨迹 可导航路网构建 交叉口识别
道路网络作为智慧城市发展的重要基础条件,不仅需要交叉口与路段来表达几何与拓扑信息,而且需要导航信息来承载道路连接语义,从而支撑大规模车辆在道路网络中的有序流动。传统路网信息获取主要依靠野外测量及遥感影像处理[1],不仅时间长、成本高、现势性差,还难以获得道路的转向、单双向等导航信息。随着便携式定位设备的普及,利用成本低、覆盖广,易于获取,现势性强,蕴含丰富道路语义信息[2]的出租车轨迹数据开展可导航路网构建成为可能。然而,一方面,出租车轨迹数据噪声大,采样频率低,采样间隔不固定,另一方面,城市道路网具有非常复杂的空间结构,且在转向关系上有多种约束。从出租车轨迹中提取城市道路信息,形成可导航路网模型是一件相当有挑战性的工作。
目前,业界基于GPS轨迹数据开展了大量路网构建方面的研究工作,主要集中于路网骨架结构的提取,包括增量法、聚类法、栅格法,以及交叉口连接法。增量法通过逐步插入轨迹来不断完善初始路网,先后提出了引力斥力模型[3]、加权Delaunay三角网[4]、信息熵[5]等方法;聚类法针对大规模轨迹点或轨迹段进行聚类,然后通过拟合聚类簇或表征点形成路网,代表性方法有k-means[6-7]、DBSCAN[8-9]、OPTICS[10]等;栅格法对轨迹数据进行栅格化处理,然后利用Voronoi分割[11]、形态学处理[12]、LDA推导[13]等方法进行道路中心线提取;交叉口连接法首先利用轨迹点密度等隐含语义特征[14-15],轨迹点方向等隐含动力学特征[16-17],以及道路几何特征[18-20]等识别道路交叉口,然后提取连接交叉口[21-22]的路段信息。在路网导航信息挖掘方面,文献[23]引入置信点概念,而文献[16-17, 24]考虑交叉口影响范围内子轨迹,通过聚类等方法分析交叉口转向规则。上述工作大多要求高频率、高精度的轨迹数据输入,不能满足低频高噪出租车轨迹数据的路网构建。
在文献[2, 14, 20]中,基于交叉口连接特征及出租车轨迹密度特征,设计了一种交叉口优先的城市路网生成方法。首先通过结合数学形态学处理与密度峰值聚类(CFDP)[25-26],开展矢栅融合的交叉口识别;然后据此对形态学方法生成骨架线进行位置调整及断裂修复,在一定程度上解决了从低质量出租车轨迹提取交叉口及其关联路段的问题。由于城市路网的复杂性,仍然有大量未识别和错提取的现象。为此,本文一方面致力于交叉口及其路段的全面精确识别;另一方面着眼于转向等导航信息的提取,从而构建出面向城市的可导航路网结构。具体而言,考虑到交叉口的连接本质,采用“交叉口位置-路段几何-导航属性”的研究思路(图 1)。首先,在已有工作基础上设计顾及多模特征的交叉口集成识别方法及零样本监督式去伪策略;然后,考虑Delaunay三角网邻接特征,轨迹分布特征及道路几何特征,识别交叉口之间的拓扑关系,并融合形态学结果生成路段几何;最后,分析出租车轨迹在交叉口处的方向与连接信息,推导交叉口转向规则及路段单双向属性,从而实现城市可导航路网的构建。
作为路网结构提取及导航属性分析的首要环节,交叉口识别的全面性与准确度直接影响可导航路网的生成质量。为此,本文分析与挖掘出租车轨迹在矢栅空间关于交叉口的多模特征,设计道路交叉口的集成识别技术,提出基于随机森林方法的零标注监督式分类,实现待定交叉口的去伪留真。具体技术流程如图 2所示。
1.1 交叉口多模特征分析
由于交叉口处红绿灯限制、两条以上道路实体交汇衔接以及行驶车道变更转换,出租车经过时往往发生停留、转向等行为,不仅形成不同于其他区域的轨迹点密度、行进方向及速度等低阶特征,还呈现出交叉口拓扑连接、方向多样性、反向交汇点密度、主成分比[14]、转向聚类个数等高阶特征。这些多模多阶特征形成了关于交叉口的高判别性互补特征集,可作为识别交叉口的基础与依据。考虑到不同特征在矢量空间和栅格空间计算互补优势,本文选择轨迹点密度、拓扑连接、反向交汇点密度等栅格空间特征进行交叉口集成提取与融合,其他矢量空间特征用于零标注监督式去伪。具体特征设计如下。
为消除噪声轨迹点影响,本文将轨迹数据进行格网化,以核密度代替单位面积内轨迹点个数来表征轨迹分布情况。给定搜索半径h,栅格单元的核密度估计可基于K函数[16]进行计算,可以看到高密度区域总是分布在交叉口周围,如图 3(a)所示。
设置合适阈值k,从上述轨迹核密度分布图中提取高密度区域,对其进行形态学细化,8邻域内像素点个数刻画了道路不同区域的连接特征,如图 3(b)所示。
基于文献[26]提出的反向交汇点(图 3(c)),进一步进行核密度分析(图 3(d))可加强交叉口表征特性。考虑到弯道段上距离较远转向点对反向交汇点会落在道路外,本文基于转向点对距离统计直方图(图 3(e)),对转向点对距离d进行限制,限制后转向点对基本分布于交叉口周边(图 3(g))。
与路段相比,交叉口的车辆行驶方向更加多样化。给定搜索半径h,每隔30°对0°~360°进行划分,计算每个方向间隔内轨迹点数Ni占落入搜索半径h内总轨迹点数N的比例,利用辛普森多样性指数(式(1))即可统计路网不同区域轨迹点方向多样性
由于路段的通行特性,一般不会像交叉口处一样发生大量转向,因此以某点为中心,搜索h范围内反向交汇点(图 3(f)中的红色五角星),进而反推转向点对TP(如(P1, P2)(P3, P4)),基于转向点对起始与终止方向进行层次聚类,并统计转向点方向聚类个数,即可有效区分交叉口与其他区域。
由于交叉口连接多个路段,轨迹点在交叉口分布时一般呈现非线性特性,如图 3(h)所示。以某点为中心,截取一定范围h内轨迹点,以轨迹点集合的x和y坐标为变量,构造协方差矩阵,计算特征值λ1和λ2,基于式(2)即可判断轨迹点分布特征,值越小非线性特征越强,越有可能为交叉口
车辆经过交叉口一般需要减速,因此,轨迹点速度平均值fSa及速度标准差fSd也可作为区分交叉口与其他区域的有效指标。
基于轨迹点密度特征fP或反向交汇点密度特征fT获取的密度信息ρ,对高密度区域进行局部距离δ计算,即可采用CFDP算法进行类簇中心(道路交叉口)识别。为保证提取更多交叉口,本文仅对局部距离进行限制[14],基于决策图将局部距离大于D的栅格单元识别为交叉口。特征fP、fT虽可有效识别候选交叉口,但却无法保证交叉口的准确性,因此,为获取更高置信交叉口,本文进一步引入交叉口连接特征fN,将8邻域内像素点个数大于2的单元识别为候选交叉口。基于特征fP、fT、fN识别的候选交叉口结果设计了相应融合机制,见表 1,可有效区分真交叉口、伪交叉口及待定交叉口如图 4所示。
1.3 零标注监督式去伪
由于出租车轨迹数据噪声大,直接由单一特征取经验阈值对待定交叉口进行去伪效果较差。为此,本文将待定交叉口去伪看成真伪分类问题,选择主成分比fΔ[14]、速度标准差fSd、速度平均值fSa、方向多样性fH及转向点方向聚类数fC等特征,从而利用随机森林方法,实现多模特征的待定交叉口分类。
考虑到基于融合规则判别的真伪交叉口(图 4(a))分布均匀且代表性强,本文随机将真伪交叉口60%作为训练样本,40%作为验证样本。首先利用训练样本,基于随机森林分类器对上述特征进行重要性度量,如图 5(a)所示,优先选择重要性分值最高的3个特征fΔ、fH和fC;然后对fΔ、fH和fC随机组合进行训练,得到各组合训练的模型;利用验证样本,基于各组合训练的模型,得到各特征子集识别准确率,最终选择识别率最高组合(fΔ、fH、fC)训练的模型对待定交叉口进行零样本监督式去伪。与仅考虑交叉口非线性特征的主成分分析去伪方法相比,该方法既较大程度保留了真交叉口(图 5(b)),又剔除了大量伪交叉口,有效解决了监督分类需要标注及单特征识别精度不高等问题。为保证分类模型计算速度及精度,所有特征均进行了min-max标准化处理。
任意两交叉口之间可能有路段连接,但相距较近的交叉口之间存在路段的可能性更大。考虑Delaunay三角网边在一定程度上反映交叉口之间的邻接信息,本文综合轨迹点分布特征及道路几何特征,融合形态学细化结果,提出一种基于Delaunay三角网的多阶段路段生成方法,不仅有效避免了扫描所有组合而引发的计算风暴实现大规模路段的高效探测,还解决了间隔较小交叉口附近路段的扭曲问题,识别了密集区域及稀疏区域路段信息,具体流程如图 6所示。
2.1 路段识别
由于Delaunay三角网边缘存在许多狭长三角形,直接进行路段提取会引入伪结果,因此本文首先迭代剔除两公共边角度大于135°的狭长三角形并将剩余三角形边作为候选路段集S进行后续多阶段路段识别:
(1) 真路段轨迹点分布一般较为密集,因此本文首先将轨迹点高密度区域矢量化与候选路段集S叠加,如图 7(a)所示,保留重叠长度与其长度比值大于γ的路段,记入集合T1,可得到图 7(c)中的红色路段。
(2) 考虑到Delaunay三角网的最大空圆准则及上述策略无法识别弯曲路段和研究区边缘路段,如图 7(a)中A、B、C区域,本文将形态学骨架线矢量化并化简,与路段集T1 50 m缓冲区进行匹配,保留长度大于l的未匹配路段,如图 7(b)所示,并基于方向与距离将其延伸到相应交叉点及缺失路段端点。完成以上3种状况路段的补充,记为T2,如图 7(c)中的绿色路段。
(3) 以上得到路段集T={T1,T2}皆位于高密度区域。考虑城市相邻道路夹角通常不会小于60°[22],最后本文进一步从S集中识别与路段集T具有公共结点,夹角大于60°,且不与其他无公共结点路段相交的路段,记入T3集合,结果如图 7(c)中的黄色路段。
T1集合与T2集合识别的路段可直接表达为该路段的几何中心线。T3集合仍包含伪路段,且直线段不足以表达路段的几何形状,需进一步判断连接路段两交叉口间是否存在子轨迹进行伪路段剔除,并对识别真路段进行分段拟合。
基于Ii Ij两方向子轨迹即可对路段进行拟合,首先将路段的直连线段划分为M等份,然后提取每一段局部密度极大点,最后将起点、局部密度极大点及终点依次连接,利用道格拉斯算法对形成的折线段进行简化,完成分段拟合,如图 8(c)所示。
需要说明的是,如果T1集合中存在三角形3条边都被识别,并且至少一个非斜边不是其他三角形斜边,则该三角形斜边为伪路段,需要从T1集合剔除。如果T1集合中存在悬挂边,且该边与其他T1集合具有公共结点路段之间夹角小于60°,则为伪路段,也需从T1集合中剔除。基于提取路网T=[T1, T2, T3],进一步剔除一些少于3条道路与之相连,违反交叉口定义的伪交叉点,并对路网进行拓扑检查,合并伪节点连接的两条路段,完成道路网拓扑纠错。
考虑到出租车轨迹采样频率较低,难以探测交叉口转向片段,本文将转向与直行关系区分对待,基于相似性评价指标分别对交叉口转向点对(图 3(f))及直行片段进行层次聚类,然后计算交叉口关联路段,分析路段之间转向关系进行路网转弯信息识别。对于任意的两个转向点对/直行片段(t1, t2),其空间相似性主要体现在起始点方向差异和终止点方向差异[16, 24],设立如下指标进行转向点对/直行片段的相似性评价
基于路段几何提取信息,可进一步根据转弯/直行聚类簇起止方向确定交叉口的关联路段。为消除少数非法掉头与随机转弯情况,根据经验将转向点对数量小于3的聚类簇剔除。以图 9中交叉口I为例,对于每类聚类簇(如0类簇),计算起始、终止方向中位数作为该簇起始方向及终止方向,如果存在I2-I路段结点P到I方向与该簇起始方向差异最小,存在I到I-I3路段结点Q方向与终止方向差异最小,则交叉口I转弯规则即可映射到交叉口关联路段I2-I与I-I3之间的关系。考虑到弯曲道路对结果的影响,P、Q取路段中离交叉点I最近的路段结点。以P-I为前进方向,表示为向量a,I-Q表示为向量b,则转向规则可基于向量b与向量a的夹角θ进行判断。如果两向量叉积(a×b)的坐标Z>0,则向量b逆时针偏离向量a,表示从I2-I路段,转到I-I3路段的转角α=θ,如果Z < 0,则表示α=-θ。路段转弯规则与转角关系如下。
路网中路段的单双向信息也是导航属性的重要组成部分,可由交叉口识别的关联路段间转弯信息进一步推导获得。以图 9交叉口I为例,I2-I路段右转向I-I3路段,即存在轨迹由路段I2-I途径交叉口I至I-I3。进一步而言,如果存在路段途经交叉口I至I-I2,则路段I2-I为双向通行路段,否则为单向通行路段。
本文试验数据包括汉口出租车轨迹数据、武汉大学出租车轨迹数据及芝加哥校园巴士轨迹数据(图 10)。文献[28]认为当采集周期超过7 d后,武汉市路段上出租车数据覆盖宽度逐渐趋于稳定,因此,武汉两个研究区域选取2014-05-29-06-04的1周内出租车轨迹数据进行试验。汉口区为武汉市中心城区,新旧建筑交错,道路间距不一;武汉大学研究区道路曲折多样,无一定几何形状,都对低频轨迹应用于道路信息提取的分析与挖掘有一定代表性。由于武汉大学数据集噪声较大,连续点间的时间间隔及空间间隔不一致,本文对武汉大学数据进行了如下预处理:①删除原始轨迹数中位置重复记录、航向为0、速度为0及速度超过100 km/h的轨迹点;②当相邻轨迹点时间间隔大于60 s、两轨迹点之间距离大于100(km/h)×60 s≈1.3 km或两轨迹点之间距离大于(v1+v2)×(t2-t1)/2时,对轨迹进行打断,删除轨迹点个数小于1的轨迹。芝加哥数据集为公共数据集,其采样频率(2~3 s)及定位精度较高,为验证本文方法处理低频轨迹效果,将其进行了30 s抽稀。表 2为预处理后轨迹数据情况。
多模特征交叉口提取与融合中参数主要涉及搜索半径h、像元大小C、高密度阈值k、转向点对距离限制阈值d、局部距离阈值D及交叉口融合半径R。为区分距离较近交叉口,综合考虑道路宽度及道路交叉口最小间距,搜索半径h一般设置为50 m。像元大小C可通过研究范围的宽度或高度中的较小值除以250来计算。局部距离阈值D基于密度-距离决策图一般设置为20 m,转向点对距离限制阈值d则基于转向点对距离统计直方图设定为最大频率对应距离。由于抽稀前芝加哥数据采样频率较高,不需要设置转向点对距离限制阈值。阈值k的设定较为困难,本文基于经验设定为平均密度的α倍。交叉口融合半径R,可基于交叉口最小间距设置为75 m。路段提取主要涉及路段重叠率阈值γ及范围限制阈值β。根据经验,γ一般设置为0.9。β可根据不同采样频率进行设置,对于高频数据,β值可相应减小为1/2。未匹配路段长度l保留可根据经验进行设置为50 m,不同数据集参数设置见表 3。
汉口区域、武汉大学区域及芝加哥区域识别交叉口及路段结果如图 11所示。汉口和武汉大学数据集为出租车轨迹数据,采样频率较低且包含大量噪声,在这种情况下,本文方法均取得了较好的道路提取效果,表明本文方法可有效规避低频及噪声对识别结果带来的不利影响。芝加哥数据在抽稀前后识别结果变化不大,进一步验证本文方法适用于低频轨迹数据。可以看出,本文方法不仅可以有效识别老城区等道路密集区域的路网(图 11(a)),而且适合于轨迹分布不均区域的道路提取(图 11(b))。
作者简介 第一作者简介:张彩丽(1989—), 女, 博士, 研究方向为轨迹数据挖掘、可导航路网构建等。E-mail:cailizhang@whu.edu.cn
通信作者:向隆刚, E-mail:geoxlg@whu.edu.cn
第一作者简介:张彩丽(1989—), 女, 博士, 研究方向为轨迹数据挖掘、可导航路网构建等。E-mail:cailizhang@whu.edu.cn
通信作者:向隆刚, E-mail:geoxlg@whu.edu.cn初审:张艳玲
复审:宋启凡
终审:金 君
往期推荐
资讯
会议
《测绘学报》
○ 智能驾驶环境感知 | 孟德将:面向无人驾驶矿车的露天矿山道路坡度实时检测方法
○ 智能驾驶环境感知 | 邓晨:基于深度学习的语义SLAM关键帧图像处理
○ 智能驾驶环境感知 | 孙喜亮:面向高精度城市测绘的激光紧耦合SLAM方法
○ 智能驾驶环境感知 | 傅琛:结合行驶场景语义的轨迹-路网实时匹配方法
《测绘通报》
《北京测绘》
《测绘科学技术学报》
《地球信息科学学报》
《测绘工程》
《中国空间科学技术》
《卫星应用》
○《卫星应用》2021年第10期摘要
○ 摘要 |《卫星应用》2021年第9期摘要推荐
○ 摘要 |《卫星应用》2021年第8期摘要推荐
《Journal of Geodesy and Geoinformation Science》
○《测绘学报(英文版)》专刊征稿 | 地图学与地球空间信息教育:理论与实践
○ 2022年第二十九届国际地理信息学大会暨CPGIS成立30周年年会(一号通知)
○ 《测绘学报(英文版)》专刊征稿 | 用于三维地理信息的摄影测量和计算机视觉
《Satellite Navigation》
○ 熊超教授:地磁暴期间夜间低纬电离层和赤道等离子体不规则体| SANA佳文速递
○ 徐元博士:面向有色测量噪声下UWB/INS组合行人导航的分布式卡尔曼滤波| SANA佳文速递
○ 杨飞博士:GNSS天顶对流层精化模型的构建与分析| SANA佳文速递
○ 牛小骥教授:用半解析法分析GNSS/INS在铁路轨道测量中的相对精度| SANA佳文速递
《自然资源遥感》
○ 《自然资源遥感》征稿:“海岸带空间资源及生态健康遥感监测”专栏
《Journal of Geovisualization and Spatial Analysis》
○《Journal of Geovisualization and Spatial Analysis》入驻“智绘科服”融媒体平台!
○ 高被引论文推荐 | Journal of Geovisualization and Spatial Analysis