使用数据驱动的方法估算
八个国家COVID-19的感染范围
Estimating the infection horizon of COVID-19 in eight countries with a data-driven approachhttp://arxiv.org/abs/2003.14334G. D. Barmparis, G. P. Tsironis摘要:COVID-19大流行影响了世界上所有国家,造成大量死亡,并严重破坏了他们的社会,金融和教育组织[1]。中国实施的严厉的社会措施非常有效,因此大多数世界国家后来都不同程度地采用了这些措施。感染持续时间和感染人数对于对抗大流行至关重要[2,3]。我们以在中国传播的疾病的定量情况为基准,并利用来自八个国家的感染数据来估计每个国家中感染的完全演变。这项分析既可以预测每个国家的预期每日感染数量,也可以预测每个国家的流行持续时间。我们的预测数据表明,意大利和德国已达到最高感染点,而西班牙则已接近最高点。A spatial agent based model for simulating and optimizing networked eco-industrial systemshttp://arxiv.org/abs/2003.14133J. Raimbault, J. Broere, M. Somveille, J. M. Serna, E. Strombom, C. Moore, B. Zhu, L. Sugar摘要:工业共生涉及在工业参与者网络之间创建副产品和废物的整合循环,以最大化经济价值,同时将环境压力降至最低。在这样的网络中,全局环境压力不再等于各个参与者的环境压力之和,而是取决于网络整体表现如何。开发理解,管理或优化此类网络的方法仍然是一个未解决的问题。本文提出了工业参与者之间副产品流动的仿真模型。目的是介绍一种从宏观角度对共生交换建模的方法。该模型考虑了两个主要机制对共生过程的多目标优化的影响。首先,它使我们能够研究经济体系的地理属性的影响,换句话说,行为者在空间上是分开的。其次,它允许我们通过演员的副产品之间的空间相关性,研究将互补的演员聚集在一起作为距离的函数的影响。我们的模拟揭示了与宏观政策有关的模式。首先,我们的结果表明,地理属性是共生过程宏观表现的重要因素。其次,空间相关性可以被解释为计划中的集群,例如生态工业园区,但可以导致非常有效的宏观表现,但前提是必须严格执行这些相关性。最后,我们通过使用数据集中各公司的地理参考,将模型与欧洲污染物排放和转移登记数据库中的实际数据进行比较,从而提供了概念证明。这项工作为交互式数据驱动的模型和平台提供了研究机会,以支持在现实世界中实施工业共生。
经济影响在整个供应链中的传播:
针对COVID-19传播的大城市封锁
The propagation of the economic impact through supply chains: The case of a mega-city lockdown against the spread of COVID-19http://arxiv.org/abs/2003.14002Hiroyasu Inoue, Yasuyuki Todo摘要:这项研究量化了东京可能被封锁以防止COVID-19扩散的经济影响。由于供需不足,封锁的负面影响可能会通过供应链传播到其他地区。将基于主体的模型应用于日本近160万家公司的实际供应链中,我们模拟了在一定时期内关闭对东京市民的生存至关重要的生产活动之后,东京以外的生产活动将会发生的情况。我们发现,将东京锁定一个月后,对其他地区的间接影响将是对东京的直接影响的两倍,导致日本的总生产损失达27万亿日元,占其年度GDP的5.3% 。尽管东京的停产占日本总产量的21%,但停产将导致日本的日产量在一个月内减少86%。Business disruptions from social distancinghttp://arxiv.org/abs/2003.13983摘要:疏远社会干预措施可以有效地预防流行病,但对经济可能有害。在生产产品或提供服务时严重依赖面对面交流或紧密接近的企业尤其容易受到攻击。但是,没有系统的证据表明人际互动在不同业务领域中的作用,而这将受到社会距离的最大限制。在这里,我们提供了基于理论的衡量标准,衡量了美国企业对人际互动的依赖性,并按行业和地理位置进行了详细说明。我们发现有4,900万名工人从事严重依赖于面对面交流或需要与其他工人保持身体亲近的职业。我们的模型表明,当企业被迫将工人联系减少一半时,他们需要12%的工资补贴以补偿沟通中断。零售,酒店和餐馆,艺术和娱乐以及学校是受影响最大的部门。我们的结果可以帮助将财政援助的目标对准受社会疏离影响最大的企业。Optimising Lockdown Policies for Epidemic Control using Reinforcement Learninghttp://arxiv.org/abs/2003.14093Harshad Khadilkar, Tanuja Ganu, Deva P Seetharam摘要:在持续进行的Covid-19大流行的背景下,一些报告和研究试图对疾病的传播进行建模和预测。关于限制对健康和经济的损害的政策,也有激烈的辩论。一方面,大多数国家主要考虑人口的健康和安全。另一方面,我们不能忽视由于全国范围内严格的封锁而造成的长期经济损害的潜力。在本工作文件中,我们提出了一种定量方法来计算单个城市或地区的锁定决策,同时平衡了健康和经济因素。此外,这些策略可以根据疾病参数(传染性,潜伏期,症状持续时间,死亡可能性)和人口特征(密度,运动倾向)自动由建议的算法自动学习。我们考虑了不完善的锁定等现实考虑,并表明使用强化学习获得的政策是一种可行的量化锁定方法。Mobility Changes in Response to COVID-19http://arxiv.org/abs/2003.14228Michael S. Warren, Samuel W. Skillman摘要:为了应对COVID-19大流行,行为发生了自愿变化,并且发生了对人际交往的行政限制。这些措施旨在降低严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2)的传播速度。我们使用匿名和/或取消标识的移动设备位置来衡量移动性,该统计数据表示特定人口中典型成员一天中移动的距离。结果表明,在美国和全球范围内,流动性已经大大降低。在美国,已发现与COVID-19威胁的发作和特定的政府指令相关的机动性大幅下降。已通过GitHub存储库https://github.com/descarteslabs/DL-COVID-19在知识共享署名(CC BY 4.0)许可下免费提供了美国admin1(州)和admin2(县)级别的移动数据。/
社会距离和隔离对流行病传播的
影响:动态密度泛函理论模型
Effects of social distancing and isolation on epidemic spreading: a dynamical density functional theory modelhttp://arxiv.org/abs/2003.13967Michael te Vrugt, Jens Bickmann, Raphael Wittkowski摘要:为了防止诸如冠状病毒病COVID-19等流行病的传播,与社会保持距离和隔离受感染者至关重要。但是,现有的用于流行病传播的反应扩散方程式无法描述这些影响。我们提出了一种基于SIR模型与动态密度泛函理论相结合的疾病传播扩展模型,其中明确考虑了社会距离和感染者隔离。该模型显示出有趣的非平衡相分离,可减少感染数量,并为控制流行病提供了新的见识。
Covid19:除非所有人都采取行动,
否则政策可能无效,甚至适得其反
Covid19: unless one gets everyone to act, policies may be ineffective or even backfirehttp://arxiv.org/abs/2003.14239Alessio Muscillo, Paolo Pin摘要:COVID19的传播正在呼吁政府和公共卫生当局采取干预措施,以限制新的感染并包含预期的危急病例和死亡人数。这些措施大多数依赖人们的依从性,人们被要求将他们的社会接触减少到最低限度。在本说明中,我们认为,如果不能在所有社会群体中,尤其是那些以强烈混合模式为特征的群体,都不能有效实施个人遵守处方和减少社交活动的效果,则可能无效。实际上,如果有很多人接触的人比没有人接触的人按比例减少的话,那么一项政策的效果可能适得其反:这种疾病的消亡将花费更多的时间,甚至可能变成这种疾病。地方性的。简而言之,除非每个人都采取行动,特别是那些拥有更多联系的人,否则一项政策甚至可能适得其反。
一种完全分布式保护隐私的方法,
可回溯潜在的感染联系人
A Fully Distributed, Privacy Respecting Approach for Back-tracking of Potentially Infectious Contactshttp://arxiv.org/abs/2003.14243摘要:在限制像Covid-19这样的高度传染性疾病的迅速传播中,证明立即鉴别与新诊断出的感染者接触过的个体非常重要。这些潜在的受害者可以隔离直到进行测试,从而限制了进一步的传播。本说明描述了一种基于移动设备(例如智能手机)的方法的概念,用于跟踪可能导致感染并提醒潜在受害者的人际联系。该方法确保了针对恶意使用的防御,同时确保了所有相关人员的高度隐私。Efficient identification of infected sub-populationhttp://arxiv.org/abs/2003.14337摘要:测试感染时,标准方法是分别测试每个受试者。如果测试方法能够有效地合并并同时测试多个受试者的样本,并且如果该亚组中的任何一个受试者为阳性,则产生阳性结果,那么人们通常可以通过相当少的测试来识别受感染的亚人群与测试对象的数量相比。我们提出了两种这样的方法,如果人口感染率是 10 ^ -2 ,则测试效率(就执行的测试总数而言)可以增加 约10倍,并且可以使 约10倍。如果是 10 ^ -3 ,则为 50。这种方法在测试总人口的很大一部分时可能很有用,这可能是当前冠状病毒大流行期间可能需要的。
某些欧洲国家COVID-19
传播的早期数据的参数分析
Parametric analysis of early data on COVID-19 expansion in selected European countrieshttp://arxiv.org/abs/2003.14283摘要:我们使用分析参数模型分析了某些欧洲国家中COVID-19扩展的早期数据。提出了疾病扩展的时间依赖性的描述以及评估扩展趋势的方法。数据中观察到了几个特征,即在意大利所有采取限制措施的国家中,疾病扩散的高度可预测性以及“回推”参数趋向于极限值。对于在模型的参数空间中具有稳定演化的选定国家,对疾病扩展的演化进行了基本预测。此处提出的发现应有助于理解疾病扩展的行为以及限制措施对扩展演变的作用。
COVID-19大流行的分形时间增
长:精确的自相似模型和紧急结论
The fractal time growth of COVID-19 pandemic: an accurate self-similar model, and urgent conclusionshttp://arxiv.org/abs/2003.14284Alfonso M. Ganan-Calvo, Juan A. Hernandez Ramos摘要:已使用维度分析和自相似假设分析了COVID-19大流行在全球范围内的当前可用数据。我们表明,受感染人口的时间序列和受影响最大,准备最不充分的国家的死亡表现出渐近幂定律行为,与分形网络中信号的传播兼容。我们提出了一个模型,该模型可预测在围堵之前的时间中死亡的渐近自相似膨胀,以及在观察到围堵膨胀之后延迟采取这些措施的函数,以总围堵措施为最终死亡人数。该模型的物理性质类似于火焰在分形维数为3.75的同质域中的扩展。采取遏制措施后,网络的自然分形结构发生了巨大变化,并观察到二次演化。根据中国大流行行为的现有数据,这种演变类似于在静态隔离罩中进行均质燃烧并最终淬火的特征时间,为20.1天。所提出的模型与可用数据非常一致,从而支持了模型中的简化假设。还提出了根据该延迟对检疫进行通用处理的方法。Understanding the COVID19 Outbreak: A Comparative Data Analytics and Studyhttp://arxiv.org/abs/2003.14150摘要:自2019年11月下旬起,冠状病毒(又称为COVID-19病毒)在中国武汉出现。从那时起,它一直大规模传播到世界各地。与2014年的埃博拉病毒,2012年的MERS和2003年的SARS相比,它被认为是过去20年来世界上病毒传播和最严重的流行病。COVID-19的影响。目的是阐明如何在短时间内以前所未有的方式在全球如此迅速地传播。本文是实现此目标的第一个举措,它提供了有关冠状病毒的全面分析研究。本文的贡献在于提供了描述性和预测性模型,通过分析每天针对所有国家爆发的大量数据,深入了解COVID-19的影响。我们旨在回答几个悬而未决的问题:COVID-19如何在世界范围内传播?对于大陆,地区和国家层面的确诊病例和死亡病例,其影响是什么?与其他流行病(包括埃博拉病毒2014,MERS 2012和SARS 2003)相比,其严重程度如何?确诊病例数与死亡病例数之间有相关性吗?我们提供了全面的分析可视化来解决上述问题。据我们所知,这是第一篇系统分析论文,为更好地理解COVID-19铺平了道路。该研究的分析仪表板和收集的数据可在线获得[1]。
初步了解Twitter上的
COVID-19信息和不实信息共享
A first look at COVID-19 information and misinformation sharing on Twitterhttp://arxiv.org/abs/2003.13907Lisa Singh, Shweta Bansal, Leticia Bode, Ceren Budak, Guangqing Chi, Kornraphop Kawintiranon, Colton Padden, Rebecca Vanarsdall, Emily Vraga, Yanchen Wang摘要:自2019年12月以来,COVID-19一直在全球迅速传播。毫不奇怪,有关COVID-19的讨论也在增加。本文是关于社交媒体(特别是Twitter)与COVID-19,讨论的主题,讨论的话题,有关该病毒的神话以及其中有多少共享的话题进行的初步讨论。通过共享URL链接连接到因特网上的其他高品质和低品质信息。我们的初步发现表明,信息流与COVID-19的新病例之间存在着有意义的时空关系,尽管存在有关神话和与质量较差信息的链接的讨论,但它们的存在并不像其他危机特定主题那样占主导地位。这项研究是了解社交媒体有关COVID-19对话的第一步。COVID-19: A model for studying the evolution of contamination in Brazilhttp://arxiv.org/abs/2003.13932Rodrigo A. Schulz, Carlos H. Coimbra-Araújo, Samuel W. S. Costiche摘要:在本文中,我们介绍了一种流行病学模型,用于调查由病毒引起的流行病的传播。该模型专门应用于由SARS-Cov-2病毒(又名“新型冠状病毒”)引起的疾病COVID-19。SIR(易感-传染性-恢复)模型被用作研究流行病演变的基础。尽管如此,我们已经修改了一些模型假设,以便获得对污染的估计,而无需高估预测。然后将此扩展模型应用于巴西近期流行病的情况。在这方面,可以获得与当前数据所提供的数量显著接近的传染数量的演变。因此,我们评估了疾病传播的未来可能情况。关于人口的易感性,我们考虑了针对检疫措施和预防传染病的不同社会行为。我们得出结论,该流行病的未来情况在很大程度上取决于迄今为止采取的社会行为以及传染病控制措施。这种措施的范围很可能在未来几个月内造成成千上万,数百万或数千万的污染。A Modified SIR Model for the COVID-19 Contagion in Italyhttp://arxiv.org/abs/2003.14391Giuseppe C. Calafiore, Carlo Novara, Corrado Possieri摘要:这项工作的目的是为理解意大利的COVID-19传染病做出贡献。为此,我们针对传染病开发了一种改良的易感感染恢复(SIR)模型,并使用了截至2020年3月30日的大流行官方数据来识别该模型的参数。我们方法的非标准部分在于以下事实:我们还将模型参数也视为易感个体的初始数量,以及将检测到的阳性数量与实际(和未知)感染个体数量相关的比例因子。识别传染性,恢复性和死亡率以及上述参数构成了一个非凸性识别问题,我们通过在外循环中进行二维网格搜索解决了这一问题,其中标准加权最小二乘优化问题为内部步骤。The D model for deaths by COVID-19http://arxiv.org/abs/2003.13747摘要:我们提出了一个简单的分析模型来描述由日冕病毒(COVID-19)感染产生的死亡人数的快速增加。“D”(死亡)模型来自称为SI模型的SIR(易感感染恢复)模型的简化版本。它假定没有恢复。在那种情况下,动力学方程可以解析地求解,结果被扩展为描述依赖于我们可以拟合数据的三个参数的D函数。给出了西班牙,意大利和中国的数据结果。通过与中国的死亡数据进行比较,对模型进行了验证,该数据已有很好的描述。这可以对西班牙和意大利的疾病发展做出预测。Social-Sensor Composition for Tapestry Sceneshttp://arxiv.org/abs/2003.13684Tooba Aamir, Hai Dong, Athman Bouguettaya摘要:社交媒体平台的广泛使用和大量的图像数据为感知,收集和共享事件信息创造了独特的机会。它的潜在应用之一是利用众包的社交媒体图像创建挂毯场景,以对指定位置和时间间隔进行场景分析。但是,现有的尝试忽略了图像的时间语义相关性和时空演变以及面向方向的场景重建。我们提出了一种新颖的社交传感器云(SocSen)服务组合方法,以形成用于场景分析的挂毯场景。新颖之处在于利用图像和图像元信息绕过昂贵的传统图像处理技术来重建场景。元数据(例如图像的地理位置,时间和视角)被建模为SocSen服务的非功能属性。我们的主要贡献在于提出一种上下文和方向感知的时空聚类和推荐方法,以选择一组时间和语义上相似的服务,以构成最佳可用的SocSen服务。提出了基于真实数据集的分析结果,以证明所提出方法的性能。http://arxiv.org/abs/2003.13715Michalis Skotiniotis, Andreas Winter摘要:戈德温定律,即随着在线讨论的不断发展,与纳粹或希特勒进行比较的可能性很快接近统一的经验观察,是互联网上记载最充分的事实之一。预期量子互联网,在这里我们在合理的模型假设下展示了戈德温定律的多项式量子加速。具体而言,在量子讨论中,平均而言,希特勒将平均提前二次被提及,并且我们推测在特定的网络拓扑结构下,甚至三次加速都是可能的。我们还表明,除非多项式层次结构崩溃到某个有限水平,否则加速不能超过指数级。我们报告了数值实验,以模拟未来量子互联网中量子戈德温定律的出现;我们的研究中最令人惊奇的发现是-与量子计算的加速不同-量子戈德温效应不仅对噪声具有鲁棒性,而且实际上通过去相干性得以增强。对于这种惊人的行为,我们还没有理论上的解释,也没有很好的应用。Quasi-experimental Designs for Assessing Response on Social Media to Policy Changeshttp://arxiv.org/abs/2003.13783摘要:烟草制品的法规正在迅速发展。随着当局评估如何有效保护人口健康,了解公众对变化的看法非常重要。社会媒体系统被广泛认为对于收集有关人类偏好和观念的数据很有用。但是,鉴于在狭窄的时间段和特定位置以及使用社交媒体的人群缺乏代表性的挑战,在快速的政策变更环境中如何使用社交媒体数据是一个悬而未决的问题。在本文中,我们应用准实验设计(用于先前在诸如社交媒体之类的观测数据中使用)来控制社交媒体上的时间和位置混杂因素,然后使用Twitter和Reddit帖子的内容分析来说明反应的内容禁止烟草香精以及电子烟税收的影响。结论补充了社交媒体在快速变化的监管环境中的潜在作用,以补充传统基于分母的代表性调查学到的内容。Social Media Mining Toolkit (SMMT)http://arxiv.org/abs/2003.13894Ramya Tekumalla, Juan M. Banda摘要:在生物医学界中,出于研究目的利用社交媒体数据的流行已大大增加。自2014年以来,仅在PubMed中就有近2500个出版物条目,这些条目用于分析Twitter和Reddit的社交媒体数据。但是,这些作品中的绝大多数都没有共享其代码或数据来复制他们的研究成果。除了极少数的例外,很少有例外会给研究人员增加负担,以弄清楚如何获取数据,如何以最佳格式格式化数据以及如何在获取的数据上创建自动和手动注释。为了解决这个紧迫的问题,我们引入了社交媒体挖掘工具包(SMMT),这是一套工具,旨在封装获取,预处理,注释和标准化社交媒体数据的繁琐细节。我们工具包的目的是让研究人员专注于回答研究问题,而不是使用社交媒体数据的技术方面。通过使用标准工具包,研究人员将能够以一致的方式获取,使用和发布数据,这对于使用该工具包的每个人都是透明的,从而简化了社交媒体领域的研究可重复性和可访问性。
从现有公开资源中提取的大规模
Twitter数据集,用于药物安全应用
A large-scale Twitter dataset for drug safety applications mined from publicly existing resourceshttp://arxiv.org/abs/2003.13900Ramya Tekumalla, Juan M. Banda摘要:随着自然语言处理(NLP)任务的深度学习模型的普及,在药物警戒领域(更具体地,用于识别不良药物反应(ADR)),对大型社交媒体数据集的内在需求针对这样的任务。随着大多数研究人员分配大量时间来爬网Twitter或购买昂贵的预先整理的数据集,然后由人工手动注释,这些方法无法很好地扩展,因为越来越多的数据不断在Twitter中流动。在这项工作中,我们重新设计了超过94亿条Tweets的公开可用存档数据集,目的是创建一个非常大的与毒品使用相关的Tweet数据集。我们使用文献中现有的手动整理数据集,然后使用机器学习方法验证过滤后的推文的相关性,最终结果是可公开获得的1,181,993百万条推文的数据集可供公众使用。我们提供了有关如何提取此数据集和所选推特ID的所有代码和详细过程,供研究人员使用。A Robust Gradient Tracking Method for Distributed Optimization over Directed Networkshttp://arxiv.org/abs/2003.13980摘要:在本文中,我们考虑了具有有向网络拓扑的多主体网络上的分布式共识优化问题。假设每个业务代表的本地成本函数都是平滑且强烈凸的,则总体目标是使所有本地成本函数的平均值最小。为了解决这个问题,我们引入了一种鲁棒的梯度跟踪方法(R-Push-Pull),该方法是根据最近提出的Push-Pull / AB算法改编而成的。R-Push-Pull继承了Push-Pull的优点,并通过精确的通信线性收敛到最优解决方案。在嘈杂的信息交换下,R-Push-Pull比现有的基于梯度跟踪的算法更健壮。在恒定的分步调整策略下,每个主体所获得的解决方案以指数级的速度快速达到期望值的最优邻域。我们提供了一个数值示例,证明了R-Push-Pull的有效性。Aversion of face-to-face situation of pedestrians eases crowding conditionhttp://arxiv.org/abs/2003.13992Sho Yajima, Kiwamu Yoshii, Yutaka Sumino摘要:我们对一群行人进行了数值模拟。每个行人都具有长轴垂直于前后轴的形状,并设计用于移动固定目的地。行人在地面上有摩擦并有软排斥力。在这里,我们新引入了一种主动轮换功能,可以捕捉心理效应来逃避面对面的情况。仿真显示主动旋转引起系统的流化,从而导致行人通量更高。Problems with classification, hypothesis testing, and estimator convergence in the analysis of degree distributions in networkshttp://arxiv.org/abs/2003.14012Pim van der Hoorn, Ivan Voitalov, Remco van der Hofstad, Dmitri Krioukov摘要:Broido和Clauset在他们最近的著作“无标度网络很少见”中,解决了网络中度分布分析的问题,以将它们分类为无标度,具有不同的“无标度”强度。在过去的二十年中,网络科学领域的大量论文都报告说,许多实际网络中的度数分布遵循幂律。这样的网络被称为无标度。但是,由于缺乏精确的定义,该术语演变为表示一系列不同的事物,从而导致对给定网络的无标度的混淆和矛盾的主张。认识到此问题,“无标度网络很少见”的作者试图对其进行修复。他们试图开发一种通用的统计原理方法,以消除网络科学文献中积累的这种无标度的歧义。尽管他们的论文提出了解决这一基本问题的公平尝试,但我们必须引起注意其中的一些重要问题。The Boltzmann legacy revisited: kinetic models of social interactionshttp://arxiv.org/abs/2003.14225Martina Fraia, Andrea Tosin摘要:Ludwig Boltzmann最初在气体动力学中开发的经典统计力学方法在描述社会现象中的应用是我们试图在本文中概述的成功案例。一方面,它是当今蓬勃发展的研究领域,它越来越渗透到不同的领域,例如经济物理学,社会物理学,生物数学,运输工程等。另一方面,这是一个令人着迷的数学挑战,因为它需要各种互补专业知识的相互作用:建模,模型分析,数值。在本文中,我们尝试以舆论形成的社会现象作为激励实例来尝试所有这些。Hurricanes and hashtags: Characterizing online collective attention for natural disastershttp://arxiv.org/abs/2003.14291Michael V. Arnold, David Rushing Dewhurst, Thayer Alshaabi, Joshua R.Minot, Jane L. Adams, Christopher M. Danforth, Peter Sheridan Dodds摘要:我们通过Twitter(具有全球影响力的社交媒体平台)上的 n -克镜头,研究对飓风的集体关注。使用飓风名字提及作为意识的替代,我们发现在风暴中外源时间动态显著相似,但是即使在造成可比性死亡和破坏的风暴中,总体集体关注度也有很大差异。我们构建了“飓风注意图”,并观察到在美国大陆上造成死亡(或经济损失)的飓风在英语推文中引起的关注要比未在美国推文引起的更多。我们发现飓风的Saffir-Simpson风标类别分配与它受到的关注程度密切相关。与较低类别的风暴相比,较高类别的风暴与死亡人数或损失金额成比例的增加,则注意力得到的比例也较高。2010年代最具破坏力和致命性的飓风哈维和玛丽亚分别引起了最多的关注和最长的记忆。平均而言,引起相同数量的死亡和经济损失的5类风暴引起的关注是1类风暴的4.6倍。
Infostop:多用户移动
数据中的可扩展停止位置检测
Infostop: Scalable stop-location detection in multi-user mobility datahttp://arxiv.org/abs/2003.14370Ulf Aslak, Laura Alessandretti摘要:近年来,以数据为依据的移动性研究蓬勃发展,为应对现实世界的挑战提供了解决方案,包括预测流行病和规划交通运输。这些进步得益于计算工具,可以分析大规模数字迹线数据集。预处理空间轨迹时的挑战之一是所谓的停止位置检测,这需要将原始时间序列减少到一个人静止不动的目的地序列。Hariharan和Toyama(2004)提出了针对此问题的最广泛采用的解决方案,该方法涉及滤除非平稳测量值,然后在固定点上应用聚集聚类。但是,这种最新的解决方案有两个局限性:(i)由于固有的测量噪声,经常访问的位置非常近的地方(例如相邻建筑物)可能会合并到一个唯一的位置,(ii )无法同时分析多个用户的跟踪,因此,目标的定义不会在多个用户之间共享。在本文中,我们描述了利用基于流的网络社区检测算法Infomap克服了最新解决方案局限性的Infostop算法。我们测试了具有高度重叠移动性的 sim 1000 个人人口的Infostop。我们显示,Infostop检测到的位置大小会随着用户数量的增加而饱和,并且时间复杂度的增长速度会比以前的解决方案慢。我们证明了Infostop可用于轻松推断社交会议。最后,我们提供了以Python和C ++编写的Infostop的开源实现,该实现具有简单的API,可用于标记按时间顺序排列的坐标序列(GPS或其他方式)以及无序的空间点集。“相信我,我拥有博士学位”:
在网上社区披露个人线下社会
地位的光环效应倾向得分分析
“Trust me, I have a Ph.D.”: A Propensity Score Analysis on the Halo Effect of Disclosing One’s Offline Social Status in Online Communitieshttp://arxiv.org/abs/2004.00105Kunwoo Park, Haewoon Kwak, Hyunho Song, Meeyoung Cha摘要:在线社区采用各种信誉计划来衡量内容质量。这项研究分析了一种新的声誉计划的效果,该计划揭示了在线社区中一个人的离线社会地位,例如学历。我们研究了采用该计划的两个Reddit社区,其中的帖子包含用于标识受教育程度(称为天才)的标签,并且我们研究了“转移的”社会地位如何影响用户之间的互动。我们计算了倾向得分,以测试天赋是否将采用者的临时权限授予了采用者,同时将诸如内容主题之类的混淆变量的影响降至最低。结果表明,与一个没有公开身份的用户相比,在一个包含同行评审的科学文章的社区中,公开学位可导致更高的受众投票率和更大的讨论规模。在另一个侧重于休闲科学主题的社区中,仅公开学位并没有获得这种好处。尽管如此,具有最高学位的用户(例如,博士学位或医学博士学位)仍可能会从听众那里获得更多反馈。这些发现表明,将离线世界和在线世界联系起来的声誉计划可能会根据社区文化的不同而对反馈行为产生光环效应。我们讨论了这项研究对未来声誉机制设计的意义。Historical Evolution of Global Inequality in Carbon Emissions and Footprints versus Redistributive Scenarioshttp://arxiv.org/abs/2004.00111Gregor Semieniuk, Victor M. Yakovenko摘要:最近提出了雄心勃勃的碳排放再分配方案,以根据《巴黎协定》缓解气候变化并实现消除贫困的可持续发展目标。这意味着到2030年,碳足迹不平等现象将大大减少,这实际上将基尼系数减半至0.25。本文通过分析按地区划分的加权国际二氧化碳排放不平等和由于最终消费者造成的全球碳足迹不平等的历史演变,研究了这些方案的可行性。对于后者,将构建一个比现有数据集更全面的新数据集。在这两种情况下,我们发现全球不平等的趋势正在下降,部分原因是中国从分布的低端向中间转移,足迹比领土排放更不平等。这些结果表明,要实现再分配方案,就需要前所未有地减少远低于历史水平的全球不平等。此外,截至2017年的最近几年的领土排放数据显示,下降的基尼系数处于0.5的饱和水平。该观察结果证实了基于最大熵推理的早期预测,即Lorenz曲线收敛于指数分布。这种饱和进一步破坏了重新分配方案的可行性,而这种结构性趋势也因在全球资本主义下加剧碳足迹不平等的结构性趋势而受到阻碍。解决这一难题的方法之一是快速减少全球能源供应的碳含量,以减少全球碳排放量,而不必严重依赖减少碳不平等现象。The Wigner’s Semicircle Law of Weighted Random Networkshttp://arxiv.org/abs/2004.00125Yusuke Sakumoto, Masaki Aida摘要:谱图论提供了一种代数方法,可以使用代表网络结构的矩阵(例如归一化拉普拉斯矩阵)的特征值和特征向量来研究加权网络的特征。但是,大型复杂网络(例如社会网络)难以正确地将其结构表示为矩阵。如果普遍存在特征值独立于大规模复杂网络中的详细结构,则可以避免这种困难。在本文中,我们将加权网络的维格纳半圆定律阐明为一种普遍性。该法则表明,当加权网络满足以下条件时,可以从一些网络统计信息(平均度,平均链路权重和平方平均链路权重)中计算出加权网络的标准化拉普拉斯矩阵的特征值。节点度和链接权重。Heterogeneous Network Representation Learning: Survey, Benchmark, Evaluation, and Beyondhttp://arxiv.org/abs/2004.00216Carl Yang, Yuxin Xiao, Yu Zhang, Yizhou Sun, Jiawei Han摘要:由于现实世界中的对象及其相互作用通常是多模式和多类型的,因此异构网络已被广泛用作传统同类网络(图)的更强大,更现实和更通用的超类。同时,最近对表示学习(也称为嵌入)进行了深入研究,并显示了其对各种网络挖掘和分析任务的有效性。由于已经存在广泛的异构网络嵌入(HNE)算法,但没有专门的调查,因此,作为这项工作的第一贡献,我们率先为系统地分类和分析各种现有HNE算法的优点提供了统一的范例。而且,尽管现有的HNE算法虽然大多数都声称是通用的,但经常在不同的数据集上进行评估。可以理解的是,由于HNE的自然应用优势,这种间接比较在很大程度上阻碍了将改进的任务性能正确地归因于有效的数据预处理和新颖的技术设计,尤其是考虑到从实际应用数据构造异构网络的各种可能方式。因此,作为第二个贡献,我们创建了四个基准数据集,这些数据集具有关于尺度,结构,属性/标签可用性以及来自其他来源的 etc.〜等各种属性,可以对HNE算法进行综合评估。作为第三项贡献,我们仔细重构和修改了10种流行的HNE算法的实现并创建了友好的接口,并在多个任务和实验设置之间进行了全面的比较。Effects of Initial State on Opinion Formation in Complex Social Networks with Noiseshttp://arxiv.org/abs/2004.00319Yi Yu, Vu X. Nguyen, Gaoxi Xiao摘要:即使基于某些最简单的系统演化模型,复杂社会网络中的意见形成也可能表现出复杂的系统动力学。一个有趣且重要的问题是初始状态对最终稳态意见分布的影响。我们表明,尽管在没有噪音的社会系统中,不同的初始意见分布肯定会影响意见演变,但是在有噪音的系统中,只要有足够的时间,不同的初始状态基本上不会对最终稳定状态产生任何重大影响。相反,正是首选意见的基础分布有助于确定系统的最终状态。这种观察与对系统初始状态在意见形成中的作用的长期信念相矛盾。我们提议一些简短的讨论,以支持我们的陈述的理由,以及这种观察在现实生活中的应用的含义。Resistance of communities against disinformationhttp://arxiv.org/abs/2004.00379Amirarsalan Rajabi, Seyyedmilad Talebzadehhosseini, Ivan Garibay摘要:虚假信息的传播被认为是对社会的巨大威胁,最近受到了前所未有的关注。在本文中,我们提出了一种基于主体的模型来模拟阴谋在人口中的传播。该模型能够比较不同网络结构对同谋者活动的抵抗力。结果表明,网络结构的连通性和密谋者的中心性对于防止密谋变得普遍至关重要。Deep Learning Approach for Intelligent Named Entity Recognition of Cyber Securityhttp://arxiv.org/abs/2004.00502Simran K, Sriram S, Vinayakumar R, Soman KP摘要:近年来,以非结构化文本形式生成的网络安全数据的数量异常增加,例如社交媒体资源,博客,文章等。命名实体识别(NER)是将这种非结构化数据转换为可被许多应用程序使用的结构化数据的第一步。NER上用于网络安全数据的现有方法基于规则和语言特征。本文提出了一种基于深度学习(DL)的,嵌入条件随机场(CRF)的方法。对几种DL架构进行了评估,以找到最佳的架构。在公开基准数据集上,双向门控循环单元(Bi-GRU),卷积神经网络(CNN)和CRF的组合比其他各种DL框架要好。这可能是由于双向结构保留了与序列中的将来词和先前词有关的特征的原因。
用深度学习方法得到
Twitter流增强网络威胁指标
Deep Learning Approach for Enhanced Cyber Threat Indicators in Twitter Streamhttp://arxiv.org/abs/2004.00503Simran K, Prathiksha Balakrishna, Vinayakumar R, Soman KP摘要:近年来,通过社交媒体资源(主要是Twitter)共享的网络安全文本数据的数量有所增加。对此数据的准确分析可以帮助开发针对网络威胁的网络威胁态势感知框架。这项工作为推特数据分析提出了一种基于深度学习的方法。要将推文转换为数字表示形式,可以使用各种文本表示形式。这些特征被馈入深度学习架构,以进行最佳特征提取和分类。各种超参数调整方法用于识别最佳文本表示方法以及用于深度学习模型的最佳网络参数和网络结构。为了进行比较分析,采用了具有经典机器学习算法的经典文本表示方法。通过对实验的详细分析,我们发现具有高级文本表示方法的深度学习体系结构的性能要优于经典文本表示和经典机器学习算法。这样做的主要原因是高级文本表示方法具有学习文本数据之间存在的顺序属性的能力,而深度学习体系结构可在减小特征尺寸的同时学习最佳特征。Development of swarm behavior in artificial learning agents that adapt to different foraging environmentshttp://arxiv.org/abs/2004.00552Andrea López-Incera, Katja Ried, Thomas Müller, Hans J. Briegel摘要:在从生物学到物理学的众多领域中,已经从多个角度研究了集体行为,尤其是群的形成。在这项工作中,我们应用投影模拟将每个人建模为与邻居和周围环境互动的人工学习主体,以便制定决策并向他们学习。在强化学习框架内,我们讨论了一维学习方案,主体商需要获得粮食资源才能获得回报。我们观察到不同类型的集体运动是如何出现的,具体取决于主体商需要到达资源的距离。例如,当食物源远离主体商最初所在的区域时,会出现高度对齐的群体。此外,我们研究了在不同类型的新兴集体动力学中出现的单个轨迹的属性。经过训练以寻找遥远资源的特工由于集体运动而呈现出具有L’evy特征的个体轨迹,而经过训练以达到附近资源的特工则呈现出布朗似的轨迹。声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!