【资讯】利用谷歌街景地图和深度学习分析社区人员结构
一篇发表在arxiv.org上的论文介绍了利用谷歌街景地图和深度学习开展人口普查的方法。利用这个方法可用有效利用现有互联网资源来进行准确的统计分析,而节省了大量的统计分析的人力和物力。
思路决定出路啊!
论文名称:
《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》
《利用深度学习和谷歌街景分析美国人口的组成》
原文节选:
As digital imagery becomes ubiquitous and machine vision techniques improve, automated data analysis may provide a cheaper and faster alternative. Here, we present a method that determines socioeconomic trends from 50 million images of street scenes, gathered in 200 American cities by Google Street View cars. Using deep learning-based computer vision techniques, we determined the make, model, and year of all motor vehicles encountered in particular neighborhoods. Data from this census of motor vehicles, which enumerated 22M automobiles in total (8% of all automobiles in the US), was used to accurately estimate income, race, education, and voting patterns, with singleprecinct resolution.
翻译:
无处不在的数字图像使得机器视觉技术不断提高,为自动化的数据分析提供一个更便宜和更快的选择。在这里,我们提出一种从谷歌图像街景中收集 5000 万张车辆图片来分析美国 200 个城市的社会经济发展趋势的方法。我们使用基于计算机视觉技术的深度学习来确定图片中所有机动车的品牌、 型号和年份,尤其是在居民区。我们收集了2000万辆机动车辆数据(占美国汽车总数的 8%),来开展这次人口普查,用于准确地估计收入、 种族、 教育和投票模式。
我们利用谷歌街景普查了美国 200个 城市中的 5000 万车辆图像。在每个图像中,我们利用基于变形零件模型 (DPM) 和车辆检测与计算机视觉算法识别出 2200 万辆各类车辆。然后我们使用卷积神经网络 (CNN) 将检测到的车辆分类到 2,657 类汽车中。对于每个类型的车,我们在 2012 年有了元数据,如品牌、 型号、 年份、车型 和汽车的价格。
我们从 'A' 和 'B'开始 在县一级(显示在地图上紫色)利用 训练模型来分析车辆属性与所在城市的社会经济数据的关系。我们这个模型,分析结果以绿色显示的所有城市的人口统计变量,实际与预测结果显示为黑色,展现了亚洲人在西雅图百分比以及,华盛顿 (i-iii) 的白种人,在密尔沃基,威斯康星州 (iv) 低于高中学历的人所占比例以及患者的百分比,研究生学位在密尔沃基,威斯康星州 (v)的比例。(六) 坦帕,佛罗里达州的中等收入家庭真值映射在左边一栏,我们估计的结果在放在右边一列。我们准确分析了西雅图中东部的三个邮递区号代码区域内中人口数量与白种人的比例关系,北部密尔沃基居民受教育程度最高,南部坦帕居民最不富裕。
第一 和第二图为奧巴馬在 2008 年总统选举中投赞成票的人的实际的和预测的百分比 (r = 0.74)。第三图为在165个 城市中我们检测到的轿车和卡车的比例。从地图中可以看出,卡车比率非常低的是在投民主党的城市,而那些在东海岸的德克萨斯州和怀俄明州的投共和党的城市多。(b) 显示实际各个城市和我们的测试预测的选民隶属关系。民主专用区显示为蓝色和红色所示是共和党的选区。我们的模型准确的分析出将支持共和党的城市卡斯珀,和支持民主党的怀俄明州和加利福尼亚州洛杉矶。我们准确地预测威斯康星州密尔沃基市,是支持民主党的城市,除了几个共和党选区在城市南部、 西部和东北部边界。
显示汽车的十大特点与车主族群特点的分析模型。
真实收入和种族散点关系图 与 我们分析结果的对比。显示每个细节是线 y = x,这个结果显示了一个完美的预测。
受教育程度的散点图真实数据与分析结果的对比也是一个完美的预测。
研究生学位的人口百分比与 2008年总统大选投奧巴馬票的百分比关系。显示每个细节是线 y = x,它对应于一个完美的预测。
从抽检转换概率看检测是正确的 (即正确检测一辆车的概率)B.我们最后检测模型在测试集上的精度和回归曲线。
按层次结构注释街景图像与汽车类别的用户界面的屏幕截图。A.专家首先要确定制造商。B.下一步是识别车子型号,被称为"子模型"的任务。C.一旦车型确定就按车型列表进行分类。每个类的示例图像也会进行显示以帮助用户识别。
论文原文word版网盘下载地址:
http://pan.baidu.com/s/1i4EWN0D