如何利用谷歌云视觉API和多层次聚类法识别均质化景观照片
注:本文为删减版,不可直接引用。原中英文全文刊发于《景观设计学》(Landscape Architecture Frontiers)2021年第5期“认知科学与景观设计”专刊。获取全文免费下载链接请点击“阅读原文”;参考引用格式见文末。
导 读
对景观照片进行有效的分类是数据处理和环境分析中至关重要的一步。本研究利用谷歌云视觉API和多层次聚类法,研发了一种半自动化的分类器来识别均质化景观照片,并将其应用于日本东京桥区城市河流均质化景观照片的分类中。分类器将所有河流景观划分为9个特征组,其视觉印象与人们的直观感知一致。研究中所应用的混淆矩阵显示,分类器分类结果总体准确性达82.61%,表明机器分类与人工分类的结果十分相近。因此,该分类器对均质化河流景观照片的分类切实有效。这种方法可大力推动评估过程中的公众参与及城市旅游管理。
关 键 词
均质化景观;景观特征;图像标注;照片分类;城市河流景观;机器学习;聚类
利用游客受雇拍摄法和
云图标注应用程序接口
探究均质化景观的识别与分类
——以日本东京桥区河流景观为例Recognition and Classification of
Homogeneous Landscape
With Visitor–Employed Photography
and Cloud Image Annotation API
—An Example of the Riverscape
in Nihonbashi, Tokyo, Japan
施佳颖
东南大学建筑学院景观学系讲师
本條毅
Tsuyoshi HONJO
日本千叶大学园艺学研究科环境科学与绿地造园学系教授
矢澤優里子
Yuriko YAZAWA
日本千叶大学园艺学研究科环境科学与绿地造园学系博士后研究员
古谷勝則
Katsunori FURUYA
日本千叶大学园艺学研究科环境科学与绿地造园学系教授
LAF
01
引 言
景观分类为相关交流提供了参考框架,有利于推动景观的管理与研究[1]。景观照片有助于理解空间数据及呈现景观特征与公众偏好[2],将景观照片有效分类是数据处理和分析过程中至关重要的一步。而公众偏好和景观的视觉品质可能对空间规划产生极大影响[3]。此外游客受雇拍摄法(visitor-employed photography,VEP)亦有助于完善旅游规划[4]。因此,为了探究某场地的景观意象与公众偏好之间的关系,需要对相关的照片内容进行详细解析,而以往的人工分类方法难以满足大批量照片的客观分类需求。
本研究研发了一套半自动分类器,尝试应用机器学习技术,以类似人工分类的方式处理VEP模式下拍摄的大量均质化景观照片。研究的目的在于:1)确定该分类器是否适用于均质化景观的识别和分类;2)评估该分类器相较于人工分类的准确性。研究运用谷歌云视觉API技术来标注一系列城市河流景观照片,照片所呈现的是典型的均质化景观。此外,研究还基于分类成果生成了研究区域的热力图。
02
研究资料与方法
研究区域
本研究以日本东京日本桥区为研究对象。该区是东京中央区的商业和文化中心,拥有典型的都市河流景观。区域中的地形、水文等形态特征也较为相似,是理想的调研场地。
研究区域与游览路线 © Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
照片收集
研究采用VEP方法收集现场照片,从而最大程度地减少研究者对游客体验的干预。现场照片拍摄于2019年7月30日和8月5日的同一时间段,天气情况相似。31名志愿者乘坐指定游船拍摄10张以上的照片,内容为游览过程中任何影响他们观光体验的意象或物体,且照片包含经纬度信息。
照片标注
两次乘船游览共收集到508张包含有效元数据的照片。经谷歌云视觉API处理,照片被标注为相应的关键词。同时,该API也注明了每个关键词相应的置信度,分数范围为0.5~1,分数越高,置信度越高[5]。
照片分类
本研究创建了一套数据集,包含照片编码和每张照片的所有关键词及其置信度分数等信息。在此基础上,对数据集进行自下而上的层次聚类,样本距离采用欧式距离计算,簇(聚类)间距离采用全连接算法。该层次聚类由R语言中的hclust函数实现。
而后,研究团队改进了聚类算法,即对聚类的照片数量设定上限,并将此方法命名为“多层次聚类法”(multi-level clustering method)。将任意聚类的最大值设定为Nmax,若聚类i的大小Nci大于Nmax,将被切分为多个子集,子集的数量为Nci/M的取整值(M为常数)。在原集合上不断执行递归操作,直至所有聚类子集的大小均小于Nmax。经过多次组合调试确定将层次聚类系统树图中一级切分的聚类数设置为8,Nmax和M的取值分别为60和40。
研究团队从整体性视角[6]确认了所得聚类分组,并确保同一聚类所含照片主题相同。随后,将主题高度相似的聚类合并为同一特征组,最终得到9类具有不同河流景观特征的组别。
照片内容的空间分布
研究利用地理信息系统获得了照片的空间分布情况,并通过热力图将每组中地理坐标点的密度以彩色渐变图的形式体现,密度最高的区域处显示为黄色,反之为蓝色。
准确性检验
为评估该分类器的性能,研究团队从每个特征组中随机选取10%的照片作为样本照片进行检验。志愿者观察样本照片和由分类器分类得到的照片集合(不包含样本照片),而后将样本照片分类至最合适的照片集合中。该过程无时间限制,且为确保检验的独立性,参与者不允许相互交流。最后,8名测试者选择频率最高的组即为每一样本照片的人工分类结果。
此外,研究使用了多分类混淆矩阵来计算分类器和人工分类之间的一致性。召回率指特定组的样本照片被成功分配到该组的比例。精确率指特定组的样本照片真正属于该组的比例。此外,研究引入了F1值(即召回率和精确率的加权平均值[7])来衡量检验的准确性。F1值为1时表示准确性最高。所涉及方程包括:
03
研究结果
关键词提取
研究通过谷歌云视觉API为508张照片匹配了共9946个关键词。如下双轴图展示了25个最常见关键词的频率,以及每个关键词的总置信度与平均置信度分数。
出现频率最高的25个关键词及其对应的平均置信度和总置信度分数 © Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
总体而言,每个关键词的总置信度分数与照片数量呈现一致的趋势。部分特定关键词尽管出现频率较低,但它们有望在照片分类过程中发挥重要作用。
层次聚类结果
下图所示层次聚类系统树图展示了多层级聚类分析结果中不同聚类的排布,其中每一叶节点代表一张照片,而每一子树代表一个照片聚类[8]。红色、蓝色和绿色的分割线分别代表第一、第二和第三级聚类的相似性阈值。它将树图切分为了19个互不重叠的聚类。
由多层次聚类法生成的系统树图及将照片聚类匹配至相应的特征组。图中的距离矩阵基于关键词的置信度分数生成,红色、蓝色和绿色分割线分别代表三级聚类的相似性阈值。© Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
河流景观特征匹配
在确认了聚类分组并确保每个聚类中的照片都属于相同的主题后,研究团队依据特征的相似性,将内容高度相似的聚类合为一组。最终,确定了河流景观特征各不相同的9个组。其中4个较大规模的组—“植物与倒影”(116张)、“高速公路下方”(100张)、“滨河高楼”(100张)和“沿岸建筑”(63张)—呈现了研究区域内的主要景观特征;较小规模的组包括“交通”(14张)、“开阔河景”(14张)、“建筑外立面”(27张)和“地标桥梁”(30张),这些组的照片可能隐含着某些当地独特的景观特征。
特征组的空间分布
研究还通过地图绘制分析了不同类型河流景观的空间特征。包括首都高速公路地图、所有照片拍摄地点,4个最大规模特征组(“高速公路下方”“植物与倒影”“沿岸建筑”和“滨河高楼”)拍摄地点密度的热力图。
从左到右、从上到下依次为研究区域与首都高速公路地图、所有照片的分布(不同颜色代表不同的特征组)、“高速公路下方”组照片的热力图、“植物与倒影”组照片的热力图、“沿岸建筑”组照片的热力图,以及“滨河高楼”组照片的热力图 © Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
根据每组照片的密度,可推断可能影响游客观光体验的景观特征。距码头约650m的区域为第一个热点,游客在此处拍摄了大量主题为植物、水中倒影、立交桥和建筑物的照片。此后,游客已无兴趣再拍摄高速公路。当游船过狭窄的河道时,游客拍摄了许多类似“峡谷”的城市景观照片,地图上由此产生了一个新的热点。而后在龟岛川和隅田川的交界处,视野突然开阔,可以看到许多摩天大楼,形成另一个重要的热点区域。
人工分类与分类器的一致性
研究者从除“其他”组以外的特征组(共464张照片)中,随机挑选出46张样本照片来评估分类器的效果。基于80%的效力和0.05的α值,样本照片的数量符合kappa一致性检验在8×8列联表的最小样本量[9]。Kappa系数越高,则分类准确性越高。
如下图所示,混淆矩阵导入了不同分类途径对应的每一特征组照片的统计信息。由结果可知,真正例(正确分类的照片)的数量为38例,总体准确率为82.61%(38/46),kappa系数为0.79,表明人工分类和分类器之间存在高度的一致性[10]。表1所示混淆矩阵得出的结果表明,本研究的方法对于均质化景观的分类是快速有效的。
多分类混淆矩阵 © Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
总体而言,该分类器实现了较高的精确率和召回率。“地标桥梁”和“交通”组别的准确性最高,“滨河高楼”精确率和召回率均相对较低。
04
讨 论
均质化照片分类的实用算法
本研究中的照片内容均质化程度高,关键词也较为分散,难以通过常用的分类标准获取最佳的聚类数量。因此,研究采用了多层次聚类法,更加切实有效地将相似的照片自动分类到设有数量上限的聚类中。此外,研究所使用分类器的分类结果与人工分类的一致性较强。综上所述,该方法能够对大部分拍摄了均质化景观的旅游照片进行有效分类,但未来仍需进一步探索更合理的方法来确定聚类数量的最佳值。
人工分类与机器分类的差异
以下为被错误分类的照片示例。在左图所示的高精确率、低召回率的情况下,该分类器的筛选过于精细,可能误选了其他组的照片。低精确率但高召回率的情况则意味着该分类器将部分在人工分类时被视为其他组的照片,归入了“沿岸建筑”组(右图)。
左图:准确性模式维恩图和错误分类的照片示例:具有高精确率和低召回率的假负例照片(预测为负,实际为真)。
右图:准确性模式维恩图和错误分类的照片示例:具有低精确率和高召回率的假正例照片(预测为正,实际为假)。
© Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
机器错误分类的原因有多种:首先,较易混淆的照片常包含相似元素,因此它们匹配的关键词也较相似;其次,云视觉API标注的关键词会出现偏差或遗漏;再者,关键词的置信度分数也会影响分类结果,一些置信度分数较低的关键词也可发挥重要作用。
依据连续置信度分数
或二进制置信度分数分类
在实验中,某些置信度分数较低的关键词同样可以呈现出照片的重要特征。基于此,研究团队探究了另一种方法:通过将原置信度分数取整—转换为二进制置信度分数(0或1)—组成关键词数据集。新的数据集中每个被检测的关键词权重均相同。随后通过与2.4小节中描述的方法进行分类。
在多层级聚类分类后,研究中出现了两个与其他特征组相似度低,但相互具有共同特征(游客出现在了前景中)的聚类。于是,这两个聚类被归为一个新的组别,即“游客”。其余组别的命名方式与上述连续置信度分数数据集中的方式相同。
结果表明,二进制置信度分数数据集的分类情况与连续置信度分数数据集的一致性中等(kappa系数为0.55)。下图所示桑基图呈现了两个数据集之间的分组差异。如图,在大多数组别中,最宽的分支为两个数据集在同一组别下相同的部分。
用于比较连续和二进制置信度分数数据集分类结果的桑基图 © Shi Jiaying, Tsuyoshi Honjo, Yuriko Yazawa, Katsunori Furuya
由于二进制置信度的分类方式或增加了“旅游”在聚类分析中的权重,因此在此数据集出现了“游客”这一新的特征组。基于此,本研究建议,在未来实验中,当连续置信度分数数据集难以获得理想的分类结果时,可尝试使用二进制置信度分数数据集进行聚类分析。
未来应用与改进
本次研究的热力图反映出的规律一方面证实了该分类器的有效性,另一方面也展示了它应用于空间分析的潜力。由热力图可明显看出,游客极易对重复或持续出现的景观感到厌倦,突然变化的空间会激发游客强烈的拍照兴趣,且研究区域的软质景观对游客的吸引力较弱。因此,日本桥川下游的景观品质有待提升。如上研究成果可为“日本桥区复兴计划”提供参考,以构建更具吸引力的景观。
本研究亦显示了该分类器在未来旅游管理和景观评估(或基于旅游业的景观评估)等研究中的应用潜力。此外,该分类器也可以分析特定的景观类型或元素。
未来研究需进一步提升量化场所景观特征结果的准确性。方法之一是调整在照片分类时起重要作用的关键词的权重和对应关系。在本研究中,照片的关键词均为客观名词,不包含形容词或描述颜色及情绪的短语。由此推测,本研究中河流景观的美学质量无从可知。随着机器学习辨别特征能力的增强,未来研究将探索更多发现,并实现景观照片识别的优化。照片识别和分类准确性的提高,将帮助人们认识景观特征与公众偏好之间的关系。
05
结 语
本研究利用谷歌云视觉API标注的关键词,开发了一个基于多层级聚类的分类器,以对大量均质化景观照片进行分类。结果表明,该分类器实用且高效,可实现对河流景观照片的半自动化分类,且结果与人的直观感受大体一致。针对不同特征组照片拍摄地点绘制的热力图也可帮助评估游客的偏好与感知。此外,准确性检验结果表明,该分类器的分类结果与人工分类相符。最后,研究团队对比了连续置信度分数数据集和二进制置信度分数数据集的分类结果,发现当重要关键词的置信度分数较低时,后一种数据集将更加有效。本研究中的方法可应用于旅游管理和景观评估中,尤其是那些需要对大量均质化景观照片进行分类的情况。基于照片自动化分类这项技术,上述方法不仅可以提高对不同图片局部差异的敏感度,也有助于推动评估过程的公众参与及旅游管理的优化。
基金项目
日本学术振兴会Kakenhi基金项目“作为私人和非正式绿地的绿色基础设施:论参与式维护政策”(编号:JP 17K08179)
部分参考文献
[1] Brabyn, L. (2009). Classifying Landscape Character. Landscape Research, 34(3), 299–321. https://doi.org/10.1080/01426390802371202
[2] Jacobsen, J. K. S. (2007). Use of Landscape Perception Methods in Tourism Studies: A Review of Photo-Based Research Approaches. Tourism Geographies, 9(3), 234–253. https://doi.org/10.1080/14616680701422871
[3] Robert, S. (2018). Assessing the visual landscape potential of coastal territories for spatial planning. A case study in the French Mediterranean. Land Use Policy, (72), 138–151. https://doi.org/10.1016/j.landusepol.2017.12.037
[4] Balomenou, N., & Garrod, B. (2014). Using volunteer-employed photography to inform tourism planning decisions: A study of St David’s Peninsula, Wales. Tourism Management, (44), 126–139. https://doi.org/10.1016/j.tourman.2014.02.015
[5] Detect Labels | Cloud Vision API. (n.d.). Google Cloud. Retrieved April 15, 2020, from https://cloud.google.com/vision/docs/labels
[6] Simensen, T., Halvorsen, R., & Erikstad, L. (2018). Methods for landscape characterisation and mapping: A systematic review. Land Use Policy, (75), 557–569. https://doi.org/10.1016/j.landusepol.2018.04.022
[7] van Rijsbergen, C. J. (1979). Information Retrieval (2nd ed.). London, England: Butterworth-Heinemann.
[8] Everitt, B. S., & Skrondal, A. (2010). The Cambridge Dictionary of Statistics (4th ed.). Cambridge, England: Cambridge University Press.
[9] Bujang, M. A., & Baharum, N. (2017). Guidelines of the minimum sample size requirements for Cohen’s Kappa. Epidemiology Biostatistics and Public Health, 14(2), 1–10. https://doi.org/10.2427/12267
[10] McHugh, M. L. (2012). Interrater reliability: The kappa statistic. Biochemia Medica, 22(3), 276–282.
参考引用 / Source:
Shi, J. Y., Honjo, T., Yazawa, Y., & Furuya, K. (2021). Recognition and Classification of Homogeneous Landscape With Visitor–Employed Photography and Cloud Image Annotation API—An Example of the Riverscape in Nihonbashi, Tokyo, Japan. Landscape Architecture Frontiers, 9(5), 12‒31. https://doi.org/10.15302/J-LAF-1-020054
本文为删减版,获取全文免费下载链接请点击“阅读原文”
编辑 | 王颖、田乐
翻译 | 闫露、申瑞琪、王颖、张晨希
制作 | 许恒源
点击此处了解最新出炉的
“认知科学与景观设计”专刊
▽ 扫描下方二维码即可订购
END
注:本文由作者及来源机构授权景观设计学前沿发布,未经授权不得以任何形式、任何文种在其他印刷版、网络版等媒介发表,如有违反,本刊将保留追究其法律责任的权利。若有转载,请后台回复关键词“转载”联系授权。
如果你喜欢本期推送,
请点“赞”和点亮“在看”,分享给更多朋友吧!