KDD 2024 | 通用的多源空间点数据预测:以PM2.5预测为例
除此之外,地面站点的高精度数据稀少,不足以支撑深度学习算法的训练,极大地限制了深度学习算法在环境监测场景的应用。作为替代,小型传感器可以提供粗糙数据从而覆盖更广泛的区域。例如,台湾 PM2.5 监测利用三个来源的数据:地面空气质量监测站、AirBox 传感器和台湾 EPA 空气质量微型站。
此外,本文还设计了一个地理位置感知的多源图神经网络,可以有效处理空间关系和不同数据特征的复杂性。本文在三个真实数据集和一个合成数据集进行了测试来验证框架的优越性。结果表明,本文的方法能够有效集成不同质量的数据从而提高预测准确性,从而能够在各种应用中实现更精确的环境监测和规划。
论文作者:
作者机构:
代码链接:
摘要
为了解决这些问题,本文引入了一种创新的多源空间点数据预测框架,该框架可以熟练地对齐来自不同来源的信息,而不依赖于真实标签。本文使用保真度分数评估每个数据源可靠性。此外,本文开发了一种地理位置感知图神经网络,旨在准确描述数据点之间的空间关系。本文的框架已经在三个真实数据集和一个合成数据集上进行了严格测试。实验结果一致证明其优于现有最先进方法的性能。
3)提出了一种地理位置感知的多源图神经网络,旨在处理不同数据源之间的空间关系和特征异质性的复杂性。
方法简介
空间预测的目标可以理解为最大化真值与预测值之间互信息,然而真值不可知。文章方法(Methodology)章节包含 3 小节:4.1 节通过一系列数学推导,将最大化互信息的问题等价转换成最小化加权的损失函数,其中真值被目标变量的观察值代替,从而允许通用机器学习算法的训练。
4.2 节具体提出了针对多源空间点数据预测的 DMSP 框架的训练过程。DMSP 为每一个数据源学习一个保真度分数作为权重参与预测和损失计算。对于每一个数据源的每一个观察值,DMSP 轮流对其目标变量进行遮挡,然后利用未遮挡数据对遮挡数据进行预测,并计算输出值与遮挡变量的损失函数。
在此过程中,每个数据源的每一个观察值都轮流作为目标参与模型拟合优化,整个过程可以看作 n 个数据源互相对齐的过程。图神经网络能够灵活处理不同的节点(node)数量并学习不同节点之间的关系,天然地适用于空间点数据的建模。
4.3 节基于图神经网络设计了一个适用于多源数据的架构。本文利用每一个数据源的位置信息分别进行图的构建,根据地理空间数据的相关性原理,本文对 n 个数据源建立 n 个 K 近邻(KNN)图,每一个数据源的图有与其对应的网络分支进行图卷积操作。
本文的框架包含对位置信息的建模和结合了邻居信息的图卷积操作,其中位置信息的建模编码器由各个数据源共享权重,而每个图卷积算子根据其数据源的输入不同具有各自的权重甚至架构。最终目标位置对应的节点表征被输入到解码器中得到目标变量输出。
实验验证
本文的消融实验主要探究了三个方面的问题:一是单一的数据源是否能够提供足够的信息。二是验证本文提出的由保真度分数加权的损失函数的有效性。三是对比了两种不同的位置信息编码器的效果。具体信息可以参考原文 5.3 节。
局限性。此框架可以与现有的图卷积算子灵活结合,对于不同的任务,应该存在不同的最优选择,出于通用化的考虑,文本并未对此进行深入探索。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」