查看原文
其他

非线性的因果关系检测背后的信息论度量 | 网络科学论文速递15篇

The following article is from 网络科学研究速递 Author ComplexLY



心速递

  • 非线性因果关系检测的信息论度量:应用于社交媒体情绪和加密货币价格;

  • 位置感知图神经网络;

  • 用于时间网络建模的加权、二分或有向流图;

  • 网络分析的相对 Hausdorff 距离;

  • 一个有长程嗅觉的贪婪觅食者的寿命;

  • 图嵌入生物医学网络:方法,应用和评估;

  • 基于洛伦兹几何的飞机登机策略分析表明速度较慢的乘客先登机更优;

  • 高阶排序和链路预测:从三角闭合到高阶模体闭合;

  • 基于地理标记的推文流的多空间尺度事件检测的幂律验证;

  • 通过对车辆运动的孤立观察建模来优化城市规模的交通流量;

  • 基于社交标签系统加权项的分布式信任感知协同过滤推荐系统;

  • 理解复杂网络中社区的脆弱性;

  • 识别大规模电子支付网络中的非法账户——图表示学习方法;

  • 一种SEIR流行病模型,其中潜伏期的经验分布通过 Coxian 分布近似;

  • 具有不确定性的高压电网中线路突发事件的频率变化率;





 非线性的因果关系检

测背后的信息论度量:对社

交媒体情绪和加密货币的应用


原文标题: 

Information-theoretic measures for non-linear causality detection: application to social media sentiment and cryptocurrency prices

地址:

http://arxiv.org/abs/1906.05740

作者:

 Z. Keskin, T. Aste

 

摘要: 时间序列之间的信息传递是通过使用称为传递熵的非对称信息论度量指标来计算的。 Geweke 的 Granger 因果关系的自回归公式用于寻找线性的传递熵,而 Schreiber 的一般非参数信息论公式用于检测非线性传递熵。我们首先针对合成数据验证这些度量。然后我们应用这些措施来检测社会情绪和加密货币价格之间的因果关系。我们通过比较信息转移与零假设进行显著性检验,通过改组时间序列确定,并计算 Z 得分。


我们还研究了在非参数密度估计中进行分区的不同方法,这可以提高结果的重要性。使用这些技术在截至2018年8月的48个月内的情绪和价格数据中,对于四种主要的加密货币,即比特币(BTC),纹波(XRP),莱特币(LTC)和以太坊(ETH),我们检测到重要的信息传递,在每小时的时间尺度上,在价格和价格情绪的方向上。我们将非线性因果关系的规模报告为比线性因果关系大一个数量级。



 位置感知图神经网络

 

原文标题: 

Position-aware Graph Neural Networks

地址: 

http://arxiv.org/abs/1906.04817

作者:

 Jiaxuan You, Rex Ying, Jure Leskovec

 

摘要: 嵌入学习节点捕获节点在范围更大的图结构中的位置对于图上的许多预测任务是至关重要的。然而,现有的图神经网络(GNN)架构在捕捉给定节点相对于图的所有其他节点的位置/位置方面具有有限的功率。在这里,我们提出位置感知图神经网络(P-GNN),一种用于计算位置感知节点嵌入的新 GNN 类。 P-GNN 首先对锚节点集合进行采样,计算给定目标节点到每个锚集的距离,然后在锚集上学习非线性距离加权聚合方案。


这样,P-GNN 可以捕获关于锚节点的节点的位置/位置。 P-GNN 具有几个优点:它们具有归纳性,可扩展性,并且可以包含节点特征信息。我们将 P-GNN 应用于多个预测任务,包括链路预测和社区检测。我们证明 P-GNNs 一直优于现有技术 GNN,在 ROC AUC 分数方面提高了66%。


 

 用作时间网络建模

的加权、二分或有向流图

 

原文标题: 

Weighted, Bipartite, or Directed Stream Graphs for the Modeling of Temporal Networks

地址: 

http://arxiv.org/abs/1906.04840

作者: 

Matthieu Latapy, Clémence Magnien, Tiphaine Viard

 

摘要: 我们最近引入了一种形式化时间网络,我们称之为流图。它强调数据的流媒体性质,并允许对概括经典图的许多重要概念进行严格定义。这尤其包括大小,密度,集群,邻域,程度,聚类系数和传递性。在这个贡献中,我们表明,与图一样,流图可以扩展到应对二分结构,节点和链路权重,或链路方向。


我们回顾了文献中提出的主要二分,加权或有向图概念,我们将它们推广到二分,加权或有向流图的情况,并且我们表明所获得的概念与图和流图一致。这为具有这些特征中的一个或几个的许多时间网络的精确建模提供了正式的基础。


 

 网络分析的相对 Hausdorff 距离

 

原文标题: 

Relative Hausdorff Distance for Network Analysis

地址: 

http://arxiv.org/abs/1906.04936

作者: 

Sinan G. Aksoy, Kathleen E. Nowak, Emilie Purvine, Stephen J. Young

 

摘要: 相似性度量广泛用于机器学习和数据科学算法。新提出的图相对Hausdorff(RH)距离是用于量化两个图的接近度的轻量级但细微差别的度量。在这项工作中,我们研究了 RH 距离作为检测时间演变图序列异常的工具的有效性。


我们将RH应用于给定的白帽黑客进行的网络攻击网络数据,以及合成生成的带有种植攻击的图表序列。在我们的实验中,在检测异常现象时,RH 距离的性能有时与图编辑距离相当,有时甚至更高。我们的结果表明,在适当的情况下,RH 距离比计算密集度更高的相似性度量具有优势。


 

 一个有长程嗅觉的

贪婪觅食者模型的寿命

 

原文标题:

Lifetime of a greedy forager with long-range smell

地址: 

http://arxiv.org/abs/1906.04974

作者: 

Hillel Sanhedrai, Yafit Maayan, Louis Shekhtman

 

摘要: 我们研究贪婪觅食者模型,他们在整个地区摄取食物。如果觅食者不吃任何食物,花费 S 时间,它就会死亡。我们假设觅食者优先朝着最大的食物气味方向移动。在给定方向上的每个食品有助于朝向该方向的食物的总气味,然而任何单个食品的气味随着与觅食者的距离而衰减。


我们假设气味的幂律衰减与食物与觅食者的距离,并改变控制这种衰变的指数 α 。我们通过分析和模拟发现,对于生活在一个维度的觅食者来说,有一个临界值 α,即 αc ,其中 α<αc 觅食者将死于有限然而,对于  α>αc 来说,觅食者有一个非零概率的无限存活时间。我们分析地计算了临界值  αc,将这两种行为分开并发现αc依赖于 S 作为  αc= 1+1/⌈S / 2⌉。


我们通过分析确定 α=αc 系统具有基本的奇点。我们还使用模拟研究了具有二维(2D)长距离衰变气味的觅食者,并发现在这种情况下,觅食者总是在有限时间内死亡。然而,在 2D 中,我们观察到最佳 α 情况下觅食者具有最长的寿命。


 

 图嵌入生物医学网

络:方法,应用和评估

 

原文标题: 

Graph Embedding on Biomedical Networks: Methods, Applications, and Evaluations

地址: 

http://arxiv.org/abs/1906.05017

作者: 

Xiang Yue, Zhen Wang, Jingong Huang, Srinivasan Parthasarathy, Soheil Moosavinasab, Yungui Huang, Simon M. Lin, Wen Zhang, Ping Zhang, Huan Sun

 

摘要: 近年来,旨在自动学习低维节点表示的图嵌入学习越来越受到关注。迄今为止,最新的图嵌入方法主要是在社会和信息网络上进行评估,尚未在系统实验和分析的生物医学网络上进行全面研究。另一方面,对于各种生物医学网络分析任务,诸如矩阵分解(可以看作一种图嵌入方法)的传统技术已经显示出有希望的结果,因此需要系统地评估更新的图。


嵌入方法(例如,基于随机游走和基于神经网络的)在其可用性和进一步发展现有技术的潜力方面。结果:我们对现有图嵌入方法在三个重要的生物医学链路预测任务上进行了系统比较:药物 - 疾病关联(DDA)预测,药物-药物相互作用(DDI)预测,蛋白质-蛋白质相互作用(PPI)预测和一个节点分类任务,即对医学术语(节点)的语义类型进行分类。我们的实验结果表明,最近的图嵌入方法通常比传统的嵌入方法更有效。


此外,与两种最先进的 DDA 和 DDI 预测方法相比,不使用任何生物特征的图嵌入方法实现了极具竞争力的性能。此外,我们总结了我们学到的经验,并提供了正确选择图嵌入方法和设置其超参数的指南。可用性:我们开发了一个易于使用的  Python 软件包,其中包含 BioNEV 的详细说明被上传到 GitHub 中,包括所有源代码和数据集,以便于研究生物医学任务中的各种图嵌入方法。

 


 基于洛伦兹几何的飞机

登机策略分析表明速度

较慢的乘客先登机更优

 

原文标题: 

Lorentzian geometry based analysis of airplane boarding policies highlights slow passengers first as better

地址: 

http://arxiv.org/abs/1906.05018

作者: 

Sveinung Erland, Jevgenijs Kaupužs, Vidar Frette, Rami Pugatch, Eitan Bachmat

 

摘要: 我们使用 Lorentzian 几何光学系统度量研究了大量乘客的极限飞机登机。飞机登机问题自然地嵌入平坦的洛伦兹指标的1 + 1维空间-时间。可以基于试图到达其座位的乘客的一维排队的表示,将登机过程的持续时间计算为二维时空图。乘客延迟其他乘客的能力取决于他们的队列位置和行名称。这相当于时空中两个事件之间的因果关系,而如果一个人阻挡另一个,则两个乘客是时间分离的,如果两个乘客可以同时坐下,则类似于空间。


这种几何中的测地线可以用来计算渐近的登机时间,因为时空几何是飞机登机由乘客限制的。我们的方法自然导致有效折射率的重新定义。有效折射率的引入首次能够对具有不同过道清除时间分布的乘客组的平均登机时间进行分析计算。在过去,航空公司试图通过尝试允许慢速或快速乘客首先登机的登机政策来缩短登机时间。我们的分析计算以离散事件模拟为后盾,得到反直觉的结论,即乘客在快速乘客之前登机的速度较慢,总登机时间较短。


这是一个普遍的结果,适用于表征问题的任何参数组合 - 慢速乘客的百分比,快速和慢速组之间过道清理时间的比率,以及沿过道的乘客密度。与快速优先登机政策相比,我们发现最多可提高28%。

 


 高阶排序和链接预

测:从闭合三角到高阶闭合体

 

原文标题: 

Higher-Order Ranking and Link Prediction: From Closing Triangles to Closing Higher-Order Motifs

地址: 

http://arxiv.org/abs/1906.05059

作者: 

Ryan A. Rossi, Anup Rao, Sungchul Kim, Eunyee Koh, Nesreen K. Ahmed, Gang Wu

 

摘要: 在本文中,我们引入了基序闭包的概念,并基于闭合高阶网络模体的概念描述了高阶排序和链路预测方法。这些方法对于基于实时排名和基于链接预测的应用(例如网络搜索,在线广告和推荐)而言是快速且有效的。


在这些应用中,实时性能至关重要。所提出的方法不需要任何明确的训练数据,也不从图数据中导出嵌入,或者执行任何显式学习。具有上述期望属性的现有方法都基于闭合三角形(共同边,Jaccard 相似性和 ilk 指数)。在这项工作中,我们研究了高阶网络模体,并基于关闭高阶模体的概念开发技术,这些模体超越了关闭简单三角形。


本工作中描述的所有方法都很快,运行时节点数量为次线性。实验结果表明关闭高阶模体用于排名和链路预测应用的重要性。最后,所提出的高阶模体闭包概念可以作为研究和开发更好的排序和链路预测方法的基础。

 


 使用地理标记的推

文流进行多空间尺度

事件检测验证幂律分布

 

原文标题: 

Power-law Verification for Event Detection at Multi-spatial Scales from Geo-tagged Tweet Streams

地址: 

http://arxiv.org/abs/1906.05063

作者: 

Yi Han, Shanika Karunasekera, Christopher Leckie, Aaron Harwood

 

摘要: 与传统新闻媒体相比,社交媒体如今提供了更丰富,更及时的新闻来源。我们从地理标记的推文流中进行多空间级事件检测。具体地,在本文中,我们(1)检查在短时间间隔(例如,十秒或一分钟)内从特定区域发表的地理标记推文的数量时间序列的统计特性; (2)从30多个数据集中验证,虽然几乎所有这些时间序列都表现出自相似性,但与事件相对应的那些,特别是短期和非计划的爆发,遵循幂律分布; (3)证明这些发现可用于促进从推文流中检测事件 - 我们提出了一种简单的算法,它只检查多维空间尺度上的推文流在时间序列中是否存在幂律分布,而不需要查看进入每条推文的内容。


我们对多个数据集的实验表明,通过单独考虑推文的时空统计分布,这种看似天真的算法可以实现与执行语义分析的事件检测方法相当的结果。我们进一步讨论如何将提出的技术集成到现有算法中以获得更好的性能。

 


 通过对车辆运动的孤立观

察建模来优化城市规模的交通流量

 

原文标题: 

Optimizing city-scale traffic flows through modeling isolated observations of vehicle movements

地址: 

http://arxiv.org/abs/1906.05093

作者: 

Fan Yang, Alina Vereshchaka, Bruno Lepri, Wen Dong

 

摘要: 移动电话和物联网为运输研究人员和计算社会科学家提供了前所未有的机会,可以观察城市规模数百万车辆或人们四处移动。它们还使政策研究人员能够确定影响个人的最佳策略,以使复杂系统达到最佳效用。然而,移动数据在个体层面变得稀疏,并且用高保真度模型将孤立的观测结合在一起以推断宏观动态是非常重要的。


在本文中,我们引入了离散事件决策过程,以便在微观事件的集合中捕获复杂系统在个体层面高保真的动态规律,其中每个事件都带来最小的变化,但同时引发复杂的行为。我们进一步推导出一种粒子滤波算法,通过驱动与观察一致的离散事件决策过程来连接孤立观测点。最后,我们通过将其简化为学习和推理任务来解决部分可观察的马尔可夫决策过程问题。


使用一个合成数据集(SynthTown),一个部分真实和部分合成数据集(Berlin)以及三个真实世界数据集(Santiago de Chile,Dakar 和 NYC)进行评估,表明离散事件决策过程可以准确估计复杂系统由于其更好地集成了高保真动态和人类移动数据,因此具有动态性。


 

 基于社交标签系统加权项的

分布式信任感知协同过滤推荐系统

 

原文标题: 

A decentralized trust-aware collaborative filtering recommender system based on weighted items for social tagging systems

地址: 

http://arxiv.org/abs/1906.05143

作者: 

Hossein Monshizadeh Naeen, Mehrdad Jalali

 

摘要: 推荐系统用于向社会网络中的用户推荐内容和资源。这些系统使用每个用户分配给不同资源的等级或标签来预测向用户展示推荐。近来,用户可以插入新内容,标记,组织,共享和搜索内容的社交标记系统正变得越来越流行。这些系统有很多有价值的信息,但数据增长是其面临的最大挑战之一,这导致需要推荐系统来预测每个用户可能喜欢或需要的内容。使用用户的社交环境来设计这些系统的一种方法被称为协同过滤(CF)。 


CF 系统中的一个问题是对用户及其标签的可信赖性。在这项工作中,我们考虑一个信任度量(由用户标记行为得出结论)旁边的相似性,以提供建议并检查其对结果的影响。另一方面,引入了分散方法,其以分布式方式计算用户之间的相似性和信任关系。这导致在所有类型的用户之间针对不同类型的项实现所提出的方法的能力,所述不同类型的项通过跨异构网络和环境的唯一 id 来访问。最后,我们表明,所提出的用于计算用户之间相似性的模型减小了用户项矩阵的大小,并且考虑到协作系统中的信任可以在生成建议时产生更好的性能。


 

 理解复杂网络中社区的脆弱性

 

原文标题:

Understanding Vulnerability of Communities in Complex Networks

地址: 

http://arxiv.org/abs/1906.05238

作者: 

V. Parimi, A. Pal, S. Ruj, P. Kumaraguru, T. Chakraborty

 

摘要: 在本文中,我们研究复杂网络的关键要素,即节点和边及其属性,例如社群的结构。它们在决定网络对结构扰动的鲁棒性方面起着重要作用。具体来说,我们希望识别所有重要节点,这些节点在被移除时会导致网络底层社区结构发生重大变化。这个问题非常重要,因为网络的社区结构允许深入了解网络功能及其拓扑如何相互影响。


此外,它甚至提供了一种将大图压缩成较小图的方法,其中每个社区充当元节点,因此有助于更容易的网络分析。如果这个社区结构被网络的意外或故意扰动所破坏,这种分析将变得困难。由于识别这些重要节点的问题在计算上是难以处理的,我们提出了一些启发式方法,使我们能够找到接近最优解的解决方案。为了证明我们方法的有效性,我们首先在小型网络上测试这些启发式方法,然后转移到更大的网络,以表明我们获得了类似的结果。


结果表明,所提出的方法可以有效地分析图中社区的脆弱性,无论其规模和规模如何。从应用的角度来看,我们证明了该算法具有可扩展性,可以应用于信息扩散任务,以减少经验观察到的活动节点的传播。此外,我们通过外部评估显示我们的算法的性能。在两个任务如预测和信息扩散中,表明我们的算法在这些任务上的效率高于其他基准算法。



 SEIR流行病模型,

Coxia可优化经验潜伏期的分布

 

原文标题: 

An SEIR Epidemic Model where Empirical Distribution of Incubation Period has Approximated by Coxian Distribution

地址: 

http://arxiv.org/abs/1906.05556

作者:

 Sungchan Kim, Jong Hyuk Byun, Il Hyo Jung

 

摘要: 在这项工作中,我们结合了经验潜伏期信息,开发了一个应用 Coxian 分布的 SEIR 模型。因为 Coxian 分布大致收敛于任何分布,我们从模型中找到基本的复制数。模型的应用使用了经验潜伏期数据。该模型可用于解决在经典流行病模型中的内在部件的解释问题。



 识别大规模电子支付网络

中的非法账户——图表示学习方法

 

原文标题: 

Identifying Illicit Accounts in Large Scale E-payment Networks — A Graph Representation Learning Approach

地址: 

http://arxiv.org/abs/1906.05546

作者: 

Da Sun Handason Tam, Wing Cheong Lau, Bin Hu, Qiu Fang Ying, Dah Ming Chiu, Hong Liu

 

摘要: 移动/在线支付服务的快速和大规模采用给服务提供商和监管机构带来了新的挑战,以保障这些服务/系统的正确使用。在本文中,我们利用基于深度神经网络的图表表示学习的最新进展来检测现实世界电子支付网络中的异常/可疑金融交易。特别是,我们提出了一种基于端到端图卷积网络(GCN)的算法,用于学习大规模时间演化图的节点和边的嵌入。


在电子支付交易图的环境背景下,结果节点和边嵌入可以有效地表征用户背景以及个人账户持有者的金融交易模式。因此,我们可以使用图嵌入结果来驱动下游图挖掘任务(例如节点分类)以识别支付网络内的非法帐户。我们的算法优于最先进的方案,包括 GraphSAGE,Gradient Boosting 决策树和随机森林。并且,我们在2个实际电子支付交易数据集中对用户帐户进行分类时,准确度更高(分别为94.62%和86.98%)。在仅使用与边相关的信息时,它还实现了另一个生物医学实体识别任务的出色准确度(97.43%)。

 


 

 具有不确定性的高压电网

中线路突发事件的频率变化率

 

原文标题: 

Rate of change of frequency under line contingencies in high voltage electric power networks with uncertainties

地址: 

http://arxiv.org/abs/1906.05698

作者: 

Robin Delabays, Melvyn Tyloo, Philippe Jacquod

 

摘要: 在具有快速发展的运行条件的现代电力网络中,评估突发事件的影响变得越来越重要。我们关心的意外事件大致可分为节点功率扰动和线路故障。尽管它们具有较高的相关性,但是线性突发事件在分析上的研究明显少于节点扰动。其主要原因是节点功率扰动是加性扰动,而线路突发事件是倍性扰动,它改变了网络的交互图。因此,它们在分析上更具挑战性。


在这里,我们通过系统产生的最大频率变化率(RoCoF)来评估线路损耗的直接影响。我们证明了 RoCoF 取决于被移除线路上的初始功率流以及测量它的总线惯性。我们进一步推导出最大 RoCoF 的期望和方差的解析表达式,就具有功率不确定性的电力系统的功率曲线的期望和方差而言。这提供了分析工具,以识别电网中最关键的线路。

 


 非线性的因果关系检

测背后的信息论度量:对社

交媒体情绪和加密货币的应用

 

原文标题: 

Information-theoretic measures for non-linear causality detection: application to social media sentiment and cryptocurrency prices

地址: 

http://arxiv.org/abs/1906.05740

作者:

 Z. Keskin, T. Aste

 

摘要: 时间序列之间的信息传递是通过使用称为传递熵的非对称信息论度量指标来计算的。 Geweke 的 Granger 因果关系的自回归公式用于寻找线性的传递熵,而 Schreiber 的一般非参数信息论公式用于检测非线性传递熵。我们首先针对合成数据验证这些度量。然后我们应用这些措施来检测社会情绪和加密货币价格之间的因果关系。


我们通过比较信息转移与零假设进行显著性检验,通过改组时间序列确定,并计算Z 得分。我们还研究了在非参数密度估计中进行分区的不同方法,这可以提高结果的重要性。使用这些技术在截至2018年8月的48个月内的情绪和价格数据中,对于四种主要的加密货币,即比特币(BTC),纹波(XRP),莱特币(LTC)和以太坊(ETH),我们检测到重要的信息传递,在每小时的时间尺度上,在价格和价格情绪的方向上。我们将非线性因果关系的规模报告为比线性因果关系大一个数量级。



 

来源:网络科学研究速递

编辑:孟婕

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。



近期网络科学论文速递


创业筹款成功中重要外在因素的变动 等5篇

创业生态系统涌现出部门多样性 等12篇

公正且普世的新策略使用 NLP 解决网络滥用行为 等10篇

比特币网络中的传染效应 等8篇

对顶尖科学家合作行为的性别分析 等16篇

加入集智,一起复杂!






集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存