- 利用社交媒体预测中国大陆 COVID-19 病例数;
- 使用 altmetrics 在准零日时间窗口内检测有影响力的研究:以 COVID-19 为例;
- 对抗 COVID-19 政策对疾病演化的影响:对希腊成功案例的复杂网络分析;
- 与犯罪相关的社会经济、建筑环境和流动条件:对多个城市的研究;
- 自动驾驶对混合交通流中交通中断的影响:一项重要的迷你综述;
- 演化网络中非线性相互作用和噪声引起的复杂结构的涌现;
- 墨西哥境内的学术移民:使用 Scopus 纵向文献计量数据分析研究人员之间的内部移民;
利用社交媒体预测
中国大陆 COVID-19 病例数
原文标题:
Reports of Own and Others’ Symptoms and Diagnosis on Social Media Predict COVID-19 Case Counts in Mainland China
http://arxiv.org/abs/2004.06169Cuihua Shen (1), Anfan Chen (2), Chen Luo (3), Wang Liao (1), Jingwen Zhang (1), Bo Feng (1) ((1) University of California, Davis, (2) University of Science and Technology of China, (3) Tsinghua University)摘要:可以利用公共社交媒体数据来预测COVID-19病例数吗?从2019年11月20日到2020年3月3日,我们分析了微博(中国类似Twitter的社交媒体平台)上的1200万以上与COVID-19相关的帖子。我们开发了机器学习分类器来识别“病假”,是关于自己和他人与COVID-19相关的症状和诊断的报告。然后,我们根据每日病例数来模拟病假和其他COVID-19帖子的预测能力。我们发现,有关症状和诊断COVID-19的报告可显著预测每日病例数,比官方统计数据早7天。但是其他COVID-19帖子没有类似的预测能力。对于一部分带有地理标记的帖子(占检索到的帖子的2.85%),我们发现,无论医疗资源分配不均和爆发时间轴如何,该预测模式对湖北省和中国大陆其他地区都适用。研究人员和疾病控制机构应密切关注有关COVID-19的社交媒体信息领域。除了监视整个搜索和发布活动之外,筛选内容并有效地识别噪音中的真实信号至关重要。
使用altmetrics在准零日
时间窗口内检测有影响力
的研究:以COVID-19为例
Using altmetrics for detecting impactful research in quasi-zero-day time-windows: the case of COVID-19http://arxiv.org/abs/2004.06179Erik Boetto, Maria Pia Fantini, Aldo Gangemi, Davide Golinelli, Manfredi Greco, Andrea Giovanni Nuzzolese, Valentina Presutti, Flavia Rallo摘要:2019年12月31日,世界卫生组织(WHO)中国国家代表处获悉武汉市发现的病因不明的肺炎病例。该综合征的病因是于2020年1月7日分离出的一种新型冠状病毒,被命名为严重急性呼吸系统综合症冠状病毒2(SARS-CoV-2)。SARS-CoV-2是2019年冠状病毒病(COVID-19)的原因。自2020年1月以来,文献中出现了越来越多的科学著作。在很早的阶段就确定相关的研究成果是具有挑战性的。在这项工作中,我们使用COVID-19作为调查的用例:altmetrics可在多大程度上用于在紧迫(即准零日)时间窗口内识别潜在的有影响力的研究。进行了具有严格资格标准的文献综述,以收集从2020年1月15日到2020年2月24日这段紧张的时间范围内出现在文献中的关于SARS-CoV-2 / COVID-19的科学论文组成的样本。用于构建一个知识图,正式表示有关文章和指标的知识。该知识图提供了一个数据分析过程,该过程用于将高度度量作为影响指标进行实验。我们发现传统引用计数,社交媒体上的引用以及新闻和博客中的提及之间存在适度的相关性。这表明与上述指标相关的引文行为具有共同的预期含义。此外,我们定义了一种协调不同指标的方法,以提供多维影响指标。
对抗COVID-19政策
对疾病演化的影响:
对希腊成功案例的复杂网络分析
The effect of anti-COVID-19 policies to the evolution of the disease: A complex network analysis to the successful case of Greecehttp://arxiv.org/abs/2004.06536Dimitrios Tsiotas, Lykourgos Magafas摘要:在希腊有望成功抗击该疾病的背景下,本文提出了一种新颖的方法来研究与控制大流行的抗COVID-19政策相关的希腊COVID-19感染曲线的演变。基于COVID-19的持续传播和数据不足以应用经典的时间序列方法,该分析建立在可见度图算法的基础上,以研究希腊COVID-19感染曲线为复杂网络。通过使用模块化优化算法,将生成的可见性图分为多个社区,这些社区定义了时间序列主体中不同连接的时间段。这些时期揭示了疾病演变过程中的一系列不同类型,从幂模式开始,其中二阶多项式(U形)模式中间,之后是几个指数模式,最后以当前对数结束模式揭示了希腊COVID-19感染曲线的演变趋于饱和。网络分析还显示了集线器的稳定性以及中度和低度节点的不稳定性,这意味着将来满足最大(感染)值的可能性很小,而其他值的平均值低于平均值的不确定性也很高。整体方法通过提出一种将时间序列结构分解为周期的新方法而为科学研究做出了贡献,该方法可以从时间序列中删除不连续的过去数据,从而促进更好的预测,并提供良好的政策和决策见解。可能有助于其他国家提高针对COVID-19的战争的绩效的做法和管理。
与犯罪相关的社会经济、
建筑环境和流动条件:
对多个城市的研究
Socio-economic, built environment, and mobility conditions associated with crime: A study of multiple citieshttp://arxiv.org/abs/2004.05822Marco De Nadai, Yanyan Xu, Emmanuel Letouzé, Marta C. González, Bruno Lepri摘要:如今,世界人口的23%生活在数百万个城市中。与大城市或农村地区相比,在这些大都市中,犯罪活动和暴力活动要高得多。因此,迫切需要了解哪些因素会影响大城市的城市犯罪。主流研究通过历史面板数据或结合生态因素和探索性地图的历史模式分析来分析犯罪记录。最近,机器学习方法随着时间的推移提供了有根据的犯罪预测。但是,以前的研究一次只关注一个城市,而仅考虑数量有限的因素(例如社会经济特征),并且通常在较大的空间单位内考虑。因此,我们对影响跨文化和城市犯罪的因素的理解非常有限。在这里,我们提出了一种贝叶斯模型,以探讨犯罪不仅与社会经济因素有关,而且与邻居的建成环境(例如土地使用)和迁徙特征如何相关。为此,我们将多个开放数据源与手机轨迹集成在一起,并比较不同因素与波士顿,波哥大,洛杉矶和芝加哥等不同城市的犯罪之间的关系。我们发现,结合使用社会经济条件,流动信息和邻里的自然特征,可以有效地解释犯罪的发生,并改善传统方法的性能。但是,我们表明,社区之间的社会生态因素与犯罪之间的关系在一个城市与另一个城市之间是非常不同的。因此,显然没有“一刀切”的模型。
Evolution Features and Behavior Characters of Friendship Networks on Campus Lifehttp://arxiv.org/abs/2004.06266Zongkai Yang, Zhu Su, Sannyuya Liu, Zhi Liu, Wenxiang Ke, Liang Zhao摘要:从大数据分析和挖掘学生的行为和互动是教育数据挖掘的重要组成部分。本文基于校园智能卡数据,不仅包括静态人口统计信息,还包括来自30000多名匿名学生的动态行为数据,研究了友谊的演变特征以及行为特征与学生互动之间的关系。一方面,利用本文提出的友好关系,从月消费记录中提取了四个不同的发展中的友谊网络。此外,通过社会网络分析(SNA)和渗流理论分析了友谊网络的巨型连接组件(GCC)的特征。另一方面,采用了两个高级行为特征,即有序性和勤奋性来分析他们与学生互动的关联。我们的实验/经验结果表明,友谊网络的大小随着时间的增长而减小,并且在友谊网络中发现了小世界效应和幂律度分布。其次,有序和勤奋的分类系数的结果证明,学生之间有很强的同伴效应。最后,对友谊网络的有序性进行渗滤分析表明,存在相变,这是有启发性的,可以通过在转变点附近干预关键学生来实现群体智能。
Quantifying Community Characteristics of Maternal Mortality Using Social Mediahttp://arxiv.org/abs/2004.06303Rediet Abebe, Salvatore Giorgi, Anna Tedijanto, Anneke Buffone, H. Andrew Schwartz摘要:在美国,虽然大多数死亡率下降了,但孕产妇死亡率却上升了,并且是所有经合组织国家中最高的。正在进行广泛的公共卫生研究,以更好地了解相对较高或较低比率的社区的特征。在这项工作中,我们探讨了社交媒体语言在提供对此类社区特征的见解中可以发挥的作用。通过分析美国各县产生的与怀孕相关的推文,我们揭示了一系列潜在话题,包括孕吐,名人怀孕和堕胎权利。我们发现,在Twitter上提及这些主题的比率可以预测孕产妇死亡率,其准确性要比标准的社会经济和风险变量(例如收入,种族和获得医疗保健的机会)高,甚至在将分析减少到六个因其可解释性而选择的主题之后,仍能保持与已知风险因素的联系。然后,我们调查了社区语言的心理维度,发现使用较少信任,压力更大和负面的情感语言与较高的死亡率显著相关,而信任和负面的影响也解释了孕产妇死亡率中种族差异的很大一部分。我们讨论了这些见识的潜力,可为社区一级的可行卫生干预提供信息。
Personalized Re-ranking for Improving Diversity in Live Recommender Systemshttp://arxiv.org/abs/2004.06390Yichao Wang, Xiangyu Zhang, Zhirong Liu, Zhenhua Dong, Xinhua Feng, Ruiming Tang, Xiuqiang He摘要:通常建议工业推荐系统的用户一次列出项目列表。理想地,这样的基于列表的建议应向用户提供各种相关的选项。但是,实际上,按列表推荐被实施为前N个推荐。前N个推荐从候选中选择要显示的前N个项目。该列表是由排名函数生成的,可以从标记数据中学习以优化准确性,但是top-N推荐可能会导致次优,因为它独立地关注每个单个项目的准确性并且忽略了项目之间的相互影响。因此,我们提出了一种个性化的重新排名模型,以改善实际推荐系统中推荐列表的多样性。在任何现有排名功能之后,可以轻松地将建议的重新排名模型部署为后续组件。重新排序模型通过使用个性化的确定点过程(DPP)来改善多样性。DPP已被应用在一些推荐系统中,以改善多样性并增加用户参与度。但是,DPP没有考虑到用户可能对多样性具有个人倾向的事实。为了克服这种局限性,我们的重新排序模型提出了个性化的DPP,以为每个用户模拟准确性和多样性之间的权衡。我们在大型工业推荐系统上实施和部署个性化DPP模型。离线和在线实验结果证明了我们提出的重新排名模型的效率。
Author Name Disambiguation in Bibliographic Databases: A Surveyhttp://arxiv.org/abs/2004.06391Muhammad Shoaib, Ali Daud, Tehmina Amjad摘要:自上个十年以来,实体解析一直是信息系统领域一个充满挑战和热门的研究领域。书目数据库(BD)(例如DBLP,Citeseer和Scopus)中的作者姓名歧义消除(AND)是实体解析的专门领域。给定潜在作者的许多引用,AND任务是查找哪些引用属于同一作者。在本次调查中,我们从三个基本的AND问题开始,然后是解决方案和挑战的需求。提供了一个通用的五步框架来处理AND问题。这些步骤是:(1)数据集的准备(2)选择发布属性(3)选择相似性指标(4)选择模型和(5)聚类性能评估。还提供了相似性度量和方法的分类和详细说明。最后,针对该动态研究领域给出了未来的方向和建议。
Deep Learning Models for Multilingual Hate Speech Detectionhttp://arxiv.org/abs/2004.06465Sai Saket Aluru, Binny Mathew, Punyajoy Saha, Animesh Mukherjee摘要:仇恨语音检测是一个具有挑战性的问题,因为大多数数据集仅以一种语言提供:英语。在本文中,我们对来自16个不同来源的9种语言的多语言仇恨言论进行了大规模分析。我们观察到,在低资源设置中,简单的模型(例如具有逻辑回归的LASER嵌入)表现最佳,而在高资源设置中,基于BERT的模型表现更好。在零镜头分类的情况下,意大利语和葡萄牙语等语言可达到良好的效果。我们提出的框架可以用作低资源语言的有效解决方案。这些模型还可以作为将来多语言仇恨语音检测任务的良好基准。我们已在https://github.com/punyajoy/DE-LIMIT上将代码和实验设置公开给其他研究人员。
Efficient Approximation Algorithms for Adaptive Influence Maximizationhttp://arxiv.org/abs/2004.06469Keke Huang, Jing Tang, Kai Han, Xiaokui Xiao, Wei Chen, Aixin Sun, Xueyan Tang, Andrew Lim摘要:给定一个社会网络 G 和一个整数 k ,影响最大化(IM)问题要求从 G 获取 k 节点的种子集 S ,以使通过传播模型影响的节点的预期数量最大化。现有的大多数针对IM问题的算法都是在非自适应设置下开发的,即,在不观察它们如何影响现实世界中其他用户的情况下,成批选择所有 k 种子节点的情况。在本文中,我们研究了自适应IM问题,其中以相同大小的 b 批量选择 k 种子节点,从而在前 i-观察到1 批次。在本文中,我们为自适应IM问题提出了第一个实用算法,该算法可以提供最坏情况下的近似保证 1- mathrm e ^ rho_b( varepsilon-1) ,其中 rho_b = 1-(1-1 / b)^ b 和 varepsilon in(0,1)是用户指定的参数。特别是,我们提出了一个通用框架AdaptGreedy,该框架可以由任何具有预期近似保证的现有非自适应IM算法实例化。我们的方法基于一种新颖的随机策略,该策略适用于可能具有独立利益的一般自适应随机最大化问题。此外,我们提出了一种新的非自适应IM算法,称为EPIC,它不仅提供了强大的预期逼近保证,而且与现有的IM算法相比,具有优越的性能。同时,我们澄清了近期工作中存在的一些误解,并为进一步研究自适应IM问题提供了启示。我们在真实的社会网络上进行实验,以全面评估我们提出的算法,实验结果强烈证实了该方法的优越性和有效性。
原文标题:
Two halves of a meaningful text are statistically different
http://arxiv.org/abs/2004.06474Weibing Deng, R. Xie, S. Deng, Armen E. Allahverdyan摘要:哪些统计功能将有意义的文本(可能写在未知系统中)与无意义的符号区分开来?在这里,我们通过比较文本前半部分和后半部分的特征来回答这个问题。这种比较可以发现隐藏的效果,因为两半的许多参数(样式,体裁 it等)具有相同的值。我们发现,上半部分比下半部分具有更多不同的单词和更多稀有单词。同样,就频率和反空间周期之间的差异而言,前半部分的单词在文本上的分布不太均匀。这些差异在我们研究的数百篇相对简短的文章中占了绝大多数。统计显著性通过Wilcoxon检验得到证实。单词随机排列破坏了文本的线性结构后,差异消失。差异揭示了有意义的文本中的时间不对称性,这可以通过证明文本以自然方式(即沿着叙述)比以词倒置形式具有更好的可压缩性来证实。我们推测,这些结果将文本的语义组织(由其叙述流定义)与其统计特征相关联。
自动驾驶对混合交通流中交通
中断的影响:一项重要的迷你综述
Effect of Autonomous Driving on Traffic Breakdown in Mixed Traffic Flow: A Critical Mini-Reviewhttp://arxiv.org/abs/2004.06504摘要:对自动驾驶车辆对混合交通流中的交通故障的影响进行了批判性分析。考虑了经典自适应巡航控制(ACC)和基于三相交通理论(TPACC)的ACC。我们显示,在经典ACC的广泛动态参数范围内,ACC车辆会引发交通故障并降低高速公路通行能力。相反,在相同的TPACC参数范围内,TPACC车辆不会启动流量故障。为了了解经典ACC和TPACC车辆对交通故障影响的物理原因,我们介绍了一种ACC模型,可以将其视为经典ACC和TPACC的动态特征的组合。使用该模型,我们发现瓶颈附近由ACC引起的局部速度扰动的幅度和交通中断的可能性如何取决于ACC的动态参数。
演化网络中非线性相互作用
和噪声引起的复杂结构的涌现
Emergence of complex structures from nonlinear interactions and noise in coevolving networkshttp://arxiv.org/abs/2004.06515Tomasz Raducha, Maxi San Miguel摘要:我们研究了相互作用和噪声的非线性对协同演化动力学的联合影响。我们选择共同发展的选民模型作为此问题的原型框架。通过数值模拟和解析近似,我们发现了三个主要相,它们在绝对磁化强度和最大成分的大小方面有所不同:共有相,共存相和动态破碎相。更详细的分析揭示了这些阶段的内在差异,使我们可以进一步划分其中两个。在共识阶段,我们可以区分弱共识或交替共识(在两个相反的共识状态之间切换)和强共识,在整个共识过程中,系统保持在同一状态。此外,弱共识阶段和强共识阶段的规模随系统规模的不同而不同。存在超线性相互作用的强共有相,并且它是唯一在热力学极限内仍然存在的共有相。在共存阶段,我们区分完全混合阶段(网络中的两种状态均充分混合)和结构化共存阶段,其中由于形成两个同构社区,连接处于不同状态的节点的链接数(活动链接)显著下降通过几个链接连接的相反状态。结构化共存阶段是社区结构出现的一个示例,该社区结构不仅来自拓扑动力学,还来自共演化。我们的数值观测结果得到了使用对近似方法的解析描述和对共存和动态碎片阶段之间过渡的临时计算的支持。我们的工作表明,简单的交互规则(包括非线性,噪声和协同演化的共同影响)如何导致与社会系统描述相关的复杂结构。
Gender Detection on Social Networks using Ensemble Deep Learninghttp://arxiv.org/abs/2004.06518Kamran Kowsari, Mojtaba Heidarysafa, Tolu Odukoya, Philip Potter, Laura E. Barnes, Donald E. Brown摘要:要分析诸如Facebook和Twitter之类的社交媒体网站上不断增加的帖子数量,就需要改进用于处理作者身份的信息处理方法。文档分类是此任务的核心,但是随着社交媒体数量的增加,传统的监督分类器的性能已经下降。本文在通过集成分类进行性别检测的情况下解决了这个问题,该分类采用多模型深度学习架构从不同的特征空间中生成专门的理解。
墨西哥境内的学术移民:
使用Scopus纵向文献计量
数据分析研究人员之间的内部移民
Scholarly migration within Mexico: Analyzing internal migration among researchers using Scopus longitudinal bibliometric datahttp://arxiv.org/abs/2004.06539Andrea Miranda González, Samin Aref, Tom Theile, Emilio Zagheni摘要:人才流动是创新的主要动力。大规模的文献计量数据已用于衡量学者的国际流动性。但是,我们对研究人员内部迁移的理解非常有限,部分原因是缺乏在适当的地方以下级别汇总的数据。在这项研究中,我们提出了一种使用神经网络的新方法和重新利用文献计量数据,该网络为汇总关联数据提供了一个国家以下的水平。我们基于Scopus数据库中超过130万的作者记录来分析内部流动性,以追踪墨西哥150,000多名学者的内部流动,并提供内部迁移的度量标准,例如1996-2019年所有州的净迁移率。内部流动性是活跃学者的特定子集的罕见事件。我们在以墨西哥城,墨西哥州,伊达尔戈,莫雷洛斯和克雷塔罗为中心的学者州的移民网络中记录了核心-外围结构,这些州在州际学术移民总流量中占主要份额。在过去的二十年中,移民网络变得更加密集,但也更加多样化,包括墨西哥湾沿岸地区和太平洋沿岸国家之间的交流更加频繁。我们对作为时空网络的流动性事件的分析表明,墨西哥的学术移民正在经历一种流动性转变,其中,城市中心之间的移民特别是往返于一个大都市地区的移民正在增加。
Edgeworth expansions for network momentshttp://arxiv.org/abs/2004.06615摘要:网络矩量法arXiv:1202.5101是用于非参数网络推断的重要工具。但是,很少有关于网络矩统计量采样分布的准确描述的研究。在本文中,我们通过Edgeworth展开给出了对学生化网络矩的采样CDF的第一个高阶精确逼近。与有关无噪声U统计的经典文献形成鲜明对比的是,我们表明,网络时刻统计的Edgeworth展开作为嘈杂的U统计,可以在没有非晶格或平滑度假设的情况下获得较高阶的精度,而只需要弱的正则性条件即可。这个结果的背后是我们令人惊讶的发现,即网络分析中两个通常讨厌的因素,即稀疏性和边沿观测误差,共同起着福气的作用,在网络力矩统计中起到至关重要的自平滑作用,并使其具有分析性。易处理。我们的假设符合相关文献中的最低要求。对于从业者,我们的经验性Edgeworth扩展是高度准确且计算效率高的。这也很容易实现。全面的模拟研究证明了这些。我们展示了我们的结果在网络推理中的三种应用。据我们所知,我们第一次证明了某些网络引导程序具有较高的阶次精度,并为调整网络子采样提供了理论指导。我们还通过分析公式和明确的错误率,得出了任何给定时刻的单样本测试和康沃尔-费舍尔置信区间。
Schrodinger’s ants: A continuous description of Kirman’s recruitment modelhttp://arxiv.org/abs/2004.06667José Moran, Antoine Fosset, Michael Benzaquen, Jean-Philippe Bouchaud摘要:我们展示了如何用具有P “ oschl-Teller( tan ^ 2 )势的Schr ” odinger方程的谱来充分表征Kirman蚂蚁模型中的平衡方法。在其他有趣的特性中,我们发现,在双峰阶段,蚂蚁一次主要访问一个食物站点,两个源之间的转换时间仅取决于“自发转换”率,而不取决于招聘率。相关函数可以精确地计算出来,并且包含越来越多的Schr·odinger算子的特征值和特征函数,可以用超几何函数表示。
Rapid Damage Assessment Using Social Media Images by Combining Human and Machine Intelligencehttp://arxiv.org/abs/2004.06675Muhammad Imran, Firoj Alam, Umair Qazi, Steve Peterson, Ferda Ofli摘要:快速破坏评估是灾难发生时响应组织执行的核心任务之一,以了解对道路,桥梁和建筑物等基础设施的破坏程度。这项工作分析了社交媒体图像内容在现实世界灾难期间执行快速损害评估的有用性。与志愿者响应组织合作激活的自动图像处理系统处理了约28万张图像,以了解灾难造成的破坏程度。根据从领域专家那里收到的反馈计算得出的系统准确度达到了76%,他们在灾难期间分析了约29K系统处理的图像。广泛的错误分析揭示了系统面临的一些见解和挑战,这对于研究界推进这一研究领域至关重要。声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!