核心速递
- COVID-19:首个公开的冠状病毒Twitter数据集;
- LAXARY:创伤后应激障碍评估的可信可解释Twitter分析模型;
SIS Epidemic Model under Mobility on Multi-layer Networkshttp://arxiv.org/abs/2003.06341Vishal Abhishek, Vaibhav Srivastava摘要:我们研究了人口异质移动模式对SIS流行病模型的影响。特别是,我们考虑了一个斑驳的环境,其中每个斑块都包含属于不同类别的个体,例如,处于不同社会经济阶层的个体。我们通过关联的连续时间马尔可夫链(CTMC)对每个类型的个人跨不同斑块的移动性进行建模。这些多个CTMC的拓扑构成了移动性的多层网络。每次,个体根据其CTMC在空间分布的斑块的多层网络中移动,然后根据SIS流行病模型与斑块中的本地个体进行交互。我们得出描述这些流动性-流行病相互作用的确定性连续极限模型。我们建立了在不同参数体制下的无病平衡(DFE)和地方性平衡(EE)的存在,并使用Lyapunov技术建立了(几乎)全局渐近稳定性。我们推导了简单的充分条件,突显了多层网络对DFE稳定性的影响。最后,我们用数值方法说明了导出的模型可以很好地逼近具有有限总体的随机模型,并证明了多层网络结构对瞬态性能的影响。Learning Graph Embedding with Limited Labeled Data: An Efficient Sampling Approachhttp://arxiv.org/abs/2003.06100Qirui Li, Xiaoming Liu, Chao Shen, Xi Peng, Yadong Zhou, Xiaohong Guan摘要:由图卷积网络代表的半监督图嵌入方法已成为利用深度学习方法处理基于图的数据以供应用的最受欢迎的方法之一。现有的工作大多集中在设计新颖的算法结构以提高性能上,但忽略了一个常见的训练问题,即这些方法能否在有限的标记数据下实现相同的性能?为了解决这个研究空白,我们提出了一种基于样本的半监督图嵌入方法的训练框架,以利用较小的训练数据集实现更好的性能。关键思想是通过流水线形式将采样理论和嵌入方法结合起来,具有以下优点:1)采样的训练数据比统一选择的数据可以保持更准确的图特征,消除了模型偏差。2)较小规模的培训数据有利于减少用于标记他们的人力资源成本;大量的实验表明,基于采样的方法仅需要10%-50%的训练数据就能达到同样的效果。它验证了该框架可以将现有的半监督方法扩展到具有极小规模标记数据的场景。NesTPP: Modeling Thread Dynamics in Online Discussion Forumshttp://arxiv.org/abs/2003.06051Chen Ling, Guangmo Tong, Mozi Chen摘要:在线讨论论坛创建了一个异步对话环境,供在线用户通过独特的线程回复通信模式交流想法和分享意见。在这种模式下准确建模信息动态非常重要,因为它提供了一种挖掘潜在传播模式并了解用户行为的方法。在本文中,我们设计了一个新颖的时间点过程模型来描述在线讨论论坛中的信息级联。提出的模型将整个事件空间视为由主线程流及其链接的回复流组成的嵌套结构,并通过其强度函数显式地对这两种类型的流之间的相关性进行建模。利用Reddit数据,我们检查了设计模型在不同应用中的性能,并将其与其他流行方法进行了比较。实验结果表明,我们的模型可以产生有竞争力的结果,并且在大多数情况下都优于最先进的方法。Snapshot Samplings of the Bitcoin Transaction Network and Analysis of Cryptocurrency Growthhttp://arxiv.org/abs/2003.06068摘要:这项工作的目的是对快速增长的比特币交易网络进行网络分析。使用网络套接字API,我们收集了在六个小时内发生的所有交易的数据。记录发件人和收件人地址以及交换的比特币数量。使用R和Gephi生成图,其中节点代表地址,边代表比特币的交换。六个小时的数据集被细分为网络的一个和两个小时的采样快照。为了确定代表整个网络的最小采样长度,我们对数据的所有子集进行了比较和分析。我们的结果表明,对于准确表征比特币交易网络所需的采样时间而言,六小时采样是最低限度。匿名是区块链和比特币网络的理想功能,但它限制了我们的分析,我们得出的结果大部分是推断的。需要做进一步的工作来收集更全面的数据,以便可以更好地分析比特币交易网络。The impact of incorrect social information on collective wisdom in human groupshttp://arxiv.org/abs/2003.06160Bertrand Jayles, Ramón Escobedo, Stéphane Cezera, Adrien Blanchet, Tatsuya Kameda, Clément Sire, Guy Theraulaz摘要:大量使用社交媒体网络导致的一个主要问题是错误信息的传播。但是,很少有研究调查不正确信息对个人和集体决策的影响。我们进行了一些实验,参与者在接收社交信息之前和之后必须估算一系列数量。他们不知道,我们通过“虚拟影响者”控制了社会信息的不准确程度,他们提供了一些不正确的信息。我们发现,很大一部分人仅部分遵循社会信息,因此抵制了不正确的信息。此外,我们发现当一个群体高估了真实价值时,不正确的社会信息可以弥补低估的偏见,从而帮助这个群体表现得更好。总体而言,我们的结果表明,错误的信息并不一定会损害群体的集体智慧,甚至可以用来减轻已知认知偏见的负面影响。Using word embeddings to improve the discriminability of co-occurrence text networkshttp://arxiv.org/abs/2003.06279Laura V. C. Quispe, Jorge A. V. Tohalino, Diego R. Amancio摘要:单词共现网络已被用于在实际和理论情况下分析文本。尽管在几种应用中取得了相对成功,但传统的共现网络无法在文本中相距较远的相似的词之间建立链接。在这里,我们调查使用词嵌入作为在共现网络中创建虚拟链接的工具是否可以提高分类系统的质量。我们的结果表明,当使用Glove,Word2Vec和FastText时,改进了样式任务中的可分辨性。此外,我们发现当不忽略停用词并且使用简单的全局阈值策略来建立虚拟链接时,可以获得最佳结果。由于所提出的方法能够改善文本作为复杂网络的表示方式,因此我们认为可以将其扩展为研究其他自然语言处理任务。同样,理论语言研究可以从采用的单词共现网络的丰富表示中受益。
COVID-19:首个公开的
冠状病毒Twitter数据集
COVID-19: The First Public Coronavirus Twitter Datasethttp://arxiv.org/abs/2003.07372Emily Chen, Kristina Lerman, Emilio Ferrara摘要:在撰写本文时,新型冠状病毒(COVID-19)的爆发已经给世界许多国家的公民,资源和经济带来了巨大压力。社会疏远措施,旅行禁令,自我隔离和业务倒闭正在改变全球社会的结构。随着人们被迫离开公共场所,有关这些现象的大量讨论现在都在网上进行,诸如Twitter等社交媒体平台。在本文中,我们描述了自2020年1月22日以来一直在不断收集的多语言冠状病毒(COVID-19)Twitter数据集。我们正在将数据集提供给研究社区(https://github.com/echen102/COVID-19-TweetID)。我们希望我们的贡献将使在线对话动态的研究在一个前所未有的大规模流行病爆发的背景下成为可能。该数据集还可以帮助跟踪科学的冠状病毒不实信息和未经证实的谣言,或者有助于理解恐惧和恐慌,毫无疑问还可以做更多的事情。最终,该数据集可能有助于实现明智的解决方案并制定有针对性的政策干预措施来应对这一全球危机。
LAXARY:创伤后应激障碍评估
的可信可解释Twitter分析模型
LAXARY: A Trustworthy Explainable Twitter Analysis Model for Post-Traumatic Stress Disorder Assessmenthttp://arxiv.org/abs/2003.07433Mohammad Arif Ul Alam, Dhawal Kapadia摘要:退伍军人的心理健康是一个重大的国家问题,因为大量退伍军人正在从最近的伊拉克战争和在阿富汗的持续军事存在中返回。尽管现有的大量工作已经使用黑盒机器学习技术调查了基于Twitter帖子的创伤后应激障碍(PTSD)评估,但是由于缺乏临床可解释性,这些框架无法为临床医生所信任。为了获得临床医生的信任,我们探讨了一个大问题,Twitter帖子可以提供足够的信息来填充临床医生传统上信任的PTSD临床评估调查吗?为了回答上述问题,我们提出了LAXARY(基于语言分析的可证明查询)模型,该模型是一种新颖的可解释人工智能(XAI)模型,用于使用改进的语言查询和单词计数(LIWC)分析来检测和表示Twitter用户的PTSD评估。。首先,我们使用经过临床验证的调查工具来收集来自真实Twitter用户的临床PTSD评估数据,并使用PTSD评估调查结果开发PTSD语言词典。然后,我们使用PTSD语言词典以及机器学习模型来填充调查工具,以检测PTSD状态及其相应Twitter用户的强度。我们对210位经过临床验证的资深Twitter用户进行的实验评估为PTSD分类及其强度估算提供了很好的准确性。我们还评估了我们开发的PTSD语言词典的可靠性和有效性。Spectral Graph Attention Networkhttp://arxiv.org/abs/2003.07450Heng Chang, Yu Rong, Tingyang Xu, Wenbing Huang, Somayeh Sojoudi, Junzhou Huang, Wenwu Zhu摘要:最近已经提出了用于表示学习的图神经网络(GNN)的变体,并在各个领域取得了丰硕的成果。其中,图注意力网络(GAT)首先采用自注意力策略来学习空间域中每个边的注意力权重。但是,学习边的注意仅关注图的局部信息,并且极大地增加了参数的数量。在本文中,我们首先介绍对图谱域的关注。因此,我们提出了谱图注意力网络(SpGAT),该网络学习有关加权滤波器和图小波基的不同频率分量的表示。这样,SpGAT可以有效地捕获图的全局模式,并且学习的参数比GAT少得多。我们在半监督节点分类任务中全面评估了SpGAT的性能,并验证了在谱域中所学习的注意力的有效性。Anomalous supply shortages from dynamic pricing in on-demand mobilityhttp://arxiv.org/abs/2003.07736Malte Schröder, David-Maximilian Storch, Philip Marszal, Marc Timme摘要:动态定价方案越来越多地应用于各个行业,以保持需求和供应的自组织平衡。但是,在整个复杂的动力学系统中,存在着可能会破坏其功能的意外的集体状态。在这里,我们揭示了动态定价是如何引发而不是防止需求不平衡的。结合博弈论和按需乘车服务的动态定价数据的时间序列分析,我们解释了这种明显的矛盾。我们得出一个阶段图,该阶段图展示了动态定价如何以及在什么条件下激励打车司机的集体行动,从而导致异常的供应短缺。通过分解全球137个地点的乘车服务价格时间序列中的不同时间尺度,我们确定了反映这些异常供应短缺的价格动态特征模式。我们的研究结果揭示了动态定价方案在哪些情况下会加剧异常的供应短缺,从而为动态定价的监管提供系统的见解,尤其是在公共交通系统中。TraLFM: Latent Factor Modeling of Traffic Trajectory Datahttp://arxiv.org/abs/2003.07780Meng Chen, Xiaohui Yu, Yang Liu摘要:定位设备(例如,GPS)的广泛使用产生了大量的人体运动数据,这些数据通常以轨迹的形式存在。了解人员流动模式可能会使许多基于位置的应用程序受益。在本文中,我们通过潜在因子建模提出了一种称为TraLFM的新型生成模型,以挖掘交通轨迹下的人员流动模式。TraLFM基于以下三个主要观察结果:(1)人体移动方式由轨迹位置序列反映;(2)人员流动方式因人而异;(3)人类的流动方式往往是周期性的,并且会随着时间而变化。因此,TraLFM以统一的方式对顺序因素,个人因素和时间因素的联合作用进行建模,并为诸如潜在因素分析和下一个位置预测之类的许多应用带来了新的视角。我们对两个真实的数据集进行了全面的经验研究,实验结果证实,在这些应用中,TraLFM的性能明显优于最新方法。TTDM: A Travel Time Difference Model for Next Location Predictionhttp://arxiv.org/abs/2003.07781Qingjie Liu, Yixuan Zuo, Xiaohui Yu, Meng Chen摘要:下一位置预测对于许多基于位置的应用程序非常重要,并为企业和政府提供了必要的情报。在现有研究中,进行下一个位置预测的常用方法是基于条件概率学习具有大量历史轨迹的顺序过渡。不幸的是,由于时间和空间的复杂性,这些方法(例如,马尔可夫模型)仅使用刚通过的位置来预测下一个位置,而不考虑轨迹中所有通过的位置。在本文中,我们试图通过考虑从查询轨迹中所有经过的位置到候选下一个位置的旅行时间来提高预测性能。特别是,我们提出了一种新颖的方法,称为旅行时差模型(TTDM),该方法利用最短旅行时间与实际旅行时间之间的差异来预测下一个位置。此外,我们通过线性插值将TTDM与Markov模型集成在一起,以生成一个联合模型,该联合模型计算到达每个可能的下一个位置的概率并返回排名最高的结果。我们已经在两个真实的数据集上进行了广泛的实验:车辆通过记录(VPR)数据和出租车轨迹数据。实验结果表明,与现有解决方案相比,预测精度有了显著提高。例如,与Markov模型相比,VPR数据的top-1准确性提高了40%,而出租车数据则提高了15.6%。
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!