查看原文
其他

使用迁移学习理解社会网络 | 网络科学论文速递21篇

ComplexLY 集智俱乐部 2021-02-09


核心速递




  • 使用迁移学习理解社会网络;

  • 不加批判的对立群体:虚假  新闻在社交网络中传播的影响;

  • 过图注意力网络进行链路预测;
  • 评估物理环境空间信息;
  • 空间数据科学:人、空间计算与环境之间的闭环;
  • 观点动力学中的逆向效应与回波室形成;
  • 通过自愿性地理数据和新指标理解人口波动:以新西兰的斯图尔特岛为例;
  • RiWalk:基于角色识别的快速结构节点嵌入;
  • FacTweet:分析假新闻Twitter账户;
  • 网络推理的迭代过程;
  • Eva:属性感知网络分割;
  • 城市截面标度无法预测城市的时间增长;
  • 使用基于注意力机制的卷积神经网络对海量短消息数据集进行语言识别;
  • 随机树上接触追踪的精确公式和近似公式;
  • 多路网络的社区发现;
  • 德国右翼在Twitter上的仇恨言论:分析和自动检测;
  • 对Twitter趋势主题的横向草根攻击;
  • 忽略边分布异质性的最小熵随机块模型;
  • 自旋玻璃的方法用于2距离最小支配集问题;
  • 世界上几个人口稠密城市基于景观几何的交通渗透;
  • DeepFork:GitHub信息扩散的监督预测;




使用迁移学习理解社会网络


原文标题:

Understanding Social Networks using Transfer Learning

地址:

http://arxiv.org/abs/1910.07918

作者:

Jun Sun, Steffen Staab, Jérôme Kunegis


摘要:对用户的详细了解有助于理解网络的发展与演化,并有助于网络应用程序的开发。尽管对于新的网络平台来说,这样的研究特别重要,但由于数据的稀疏性,它常常由于缺乏对新现象的了解而受到损害。类似于人类将经验从一个领域转移到另一个领域,迁移学习作为机器学习的一个子领域,使在一个领域获得的知识适应于一个新的领域。我们系统地研究了迁移学习的概念,如何应用于新创建(新兴)网络平台上的用户研究,并提出了基于迁移学习的方法TraNet。我们展示了两个应用案例,其中Tranet应用于涉及在不同网络平台上识别用户信任和角色的任务。我们将Tranet的性能与其他方法进行了比较,发现我们的方法可以在给定的任务中跨平台的最好地传递用户的知识。




不加批判的对立群体:虚假

新闻在社交网络中传播的影响


原文标题:

Uncritical polarized groups: The impact of spreading fake news as fact in social networks

地址:

http://arxiv.org/abs/1910.08010

作者:

Jesus San Martin, Fatima Drubi, Daniel Rodriguez-Perez


摘要:在社交网络中传播假消息有助于理解当今虚假新闻泛滥及其对民主国家影响。这就需要采用模仿谣言传播的模式。大数定律和接触群体的概率分布允许我们构造一个模型假设最少的模型。此外,我们可以用这个模型来分析极为极端的个人群体(人类或机器人)的存在,这些人一知道谣言就传播出去。在一个由即时通讯应用程序连接的群体中,仅给定知道任何新闻的初始人数,我们首先从我们的模型中推导出一个简单的时间函数来研究谣言传播。然后,我们证明了对立群体可以被检测出来并从经验数据中量化。最后,我们还预测了任何谣言达到固定人口百分比所需的时间。





通过图注意力网络进行链路预测


原文标题:

Link Prediction via Graph Attention Network

地址:

http://arxiv.org/abs/1910.04807

作者:

Weiwei Gu, Fei Gao, Xiaodan Lou, Jiang Zhang


摘要:链路预测是基于当前观测到的局部网络来推断缺失链路或预测未来链路的一种方法,它是网络科学中的一个基础性问题,具有巨大的实际应用价值。然而,传统的链路预测方法既没有很高的预测精度,也不能揭示链路背后隐藏的信息。为了解决这个问题,我们总结了在图上进行深度学习的最新技术,并提出了一种新的链接预测模型DeepLinker。DeepLinker没有使用节点标签信息来学习节点表示,而是使用这些链接作为监督信息。在五幅图上的实验表明,DeepLinker不仅可以达到最新的链路预测精度,而且可以作为副产品获得有效的节点表示和节点中心度排序。尽管这些表示不需要任何有监督的节点标签信息,但它们在节点排序和节点分类任务中仍然表现良好。




评估物理环境中的空间信息


原文标题:

Assessing Spatial Information in Physical Environments

地址:

http://arxiv.org/abs/1910.06367

作者:

Vinicius M. Netto, Edgardo Brigatti, Caio Cacholas, Vinicius Gomes Aleixo


摘要:许多方法都是基于环境包含信息的假设,主要关注人类在视觉感知、导航和空间决策中如何从环境中解码信息。一个有待充分探讨的问题是,构建的环境如何能够在其自身的物理结构中对信息的形式进行编码。本文探索了一种新的空间信息测度方法,并将其应用于世界不同空间文化和地区的20个城市。研究结果表明,这种方法能够识别城市之间的相似性,生成一个“文化假说”分类方案,并发现了新的问题:空间配置和文化与区域之间是否存在一致性差异。




空间数据科学:人、

空间计算与环境之间的闭环


原文标题:

Spatial Data Science: Closing the human-spatial computing-environment loop

地址:

http://arxiv.org/abs/1910.06484

作者:

Benjamin Adams


摘要:在过去的十年里,“空间计算”一词已经发展出两种不同的定义,虽然这两种定义并不是完全无关的。空间计算的第一个定义源于工业,它主要指的是各种新的增强、虚拟、混合现实和自然用户界面技术。学术界提出的第二个定义具有更广泛的视角,包括地理信息科学的积极研究以及上述新型用户界面技术。这两种定义都反映了一种不断向增加与嵌入环境中的计算接口和传感器的交互的转变,以及这些技术的使用如何影响我们的行为、理解甚至改变我们生活的世界。不管定义如何,空间计算的研究进展顺利,无需为研究者群体确定新的研究议程或新的标签。作为一个研究领域,空间数据科学可以视为空间计算与现实世界中的问题解决的结合。




观点动力学中的

逆向效应与回波室形成


原文标题:

Contrarian effects and echo chamber formation in opinion dynamics

地址:

http://arxiv.org/abs/1910.06487

作者:

Henrique Ferraz de Arruda, Alexandre Benatti, Filipi Nascimento Silva, Cesar Henrique Comin, Luciano da Fontoura Costa


摘要:网络的拓扑结构与在其上展开的特定动力学类型之间的关系在网络科学中得到了广泛的研究,特别是观点的形成。在观点形成中发生的一个特别重要的现象是回声室的出现,也称为社会泡沫。在目前的工作中,我们通过考虑在几个网络模型(WS,ER,BA等模型)上执行的Sznajd观点动力学的适应性来处理这一现象,重点是逆向效应的影响。为了考虑现实世界的社会动力学,我们实现了一个重连方案,在这个方案中,主体可以在改变他们的观点后重新连接他们的联系人。本文从观点多样性和网络模块性两个方面分析了拓扑结构与观点动力学之间的关系。本文考虑了两种特殊情况:(i)主体人只能与持有相同观点的其他人重新联系;(ii)在前一种情况的基础上,主体人只能在有限的社区内重新联系。本文已经获得了一些有趣的结果,包括识别不仅具有高多样性/高模块性,而且具有低多样性/高模块性的情况。研究发现,限制性重连减少了回声室形成的机会,也导致较小的回声室。




通过自愿性地理数据和

新指标理解人口波动:

以新西兰的斯图尔特岛为例


原文标题:

Understanding population fluctuations through volunteered geographic information and novel indicators: The experience of Rakiura, Stewart Island, New Zealand

地址:

http://arxiv.org/abs/1910.06493

作者:

Mathew Darling, Benjamin Adams, Caroline Orchiston, Thomas Wilson, Brendon Bradley


摘要:在一个数据异构的时代,新颖的方法和自愿提供的地理信息为人们了解如何与一个地方互动提供机会。然而,仅仅拥有这样的异构数据是不够的,还需要了解其可用性和可靠性。在这里,我们以斯图尔特岛为例进行案例研究,该岛上的中央凹海峡上的乘客数量是已知的。我们已经建立了一个人口模型来确定这样的新指标。在我们的初步研究中,我们发现一些指标为我们了解人口结构提供了机会。一些指标(如废水量)可以以原始形式显示人口的相对变化。而其他指标(如TripAdvisor的评论或Instagram的帖子)则需要进一步丰富数据,以深入了解人口结构。这项研究是一个更大的研究项目的一部分,旨在测试和应用这些新的指标,为灾害风险评估提供信息。




RiWalk:基于角色

识别的快速结构节点嵌入


原文标题:

RiWalk: Fast Structural Node Embedding via Role Identification

地址:

http://arxiv.org/abs/1910.06541

作者:

Xuewei Ma, Geng Qin, Zhiyang Qiu, Mingxin Zheng, Zhe Wang


摘要:网络中执行不同功能的节点具有不同的角色,这些角色可以从网络的结构中提取出来。学习节点角色的潜在表示有助于理解网络并跨网络传递知识。然而,大多数现有的结构嵌入方法需要高计算和空间成本或依赖于启发式特征工程。在这里,我们提出RiWalk,学习节点结构表示一个灵活的范例。它将结构嵌入问题分解为角色识别过程和网络嵌入过程。通过角色识别,构造保留结构依赖关系的内核,更好地集成网络嵌入方法。为了验证RiWalk的有效性,我们分别开发了RiWalk-SP和RiWalk-WL两种不同的角色识别方法,并采用了基于随机游走的网络嵌入方法。在网络内分类任务上的实验表明,我们提出的算法在效率提高一个数量级的同时,取得了与其他基线相当的性能。此外,我们还进行跨网络的角色分类任务。结果表明,结构嵌入在迁移学习中具有潜在的应用价值。RiWalk还具有可扩展性,使其能够捕获大规模网络中的结构角色。




FacTweet:分析

假新闻Twitter账户


原文标题:

FacTweet: Profiling Fake News Twitter Accounts

地址:

http://arxiv.org/abs/1910.06592

作者:

Bilal Ghanem, Simone Paolo Ponzetto, Paolo Rosso


摘要:我们提出了一种利用神经回归模型和各种不同的语义和文体特征在账户层面检测Twitter虚假新闻的方法。我们的方法从Twitter新闻账户的时间线中提取一组特征,将其作为块来阅读,而不是单独处理每条推文,我们展示了在广泛的强基线范围内,用时间序列模型来模拟假新闻和真新闻的潜在文体特征的实验优势。




网络推理的迭代过程


原文标题:

Iterative procedure for network inference

地址:

http://arxiv.org/abs/1910.06593

作者:

Gloria Cecchini, Bjoern Schelter


摘要:当从数据重建网络时,可能会发生两种类型的错误:关于链路存在或不存在的假阳性和假阴性的错误。本文用迭代法解析地重建了真实底层网络的顶点度分布。这一过程是基于所推断的网络和对第一类和第二类错误概率的估计。迭代过程包括选择不同的阿尔法值来执行网络重建的迭代步骤。对于第一步,可以选择阿尔法值为0.05,例如,第一步的结果给出了感兴趣的网络拓扑的第一个估计。对于第二个迭代步骤,根据第一个步骤的结果调整阿尔法的值。这个过程是不断迭代的,最终使得重构顶点度分布适应其先前未知的网络拓扑。




Eva:属性感知网络分割


原文标题:

Eva: Attribute-Aware Network Segmentation

地址:

http://arxiv.org/abs/1910.06599

作者:

Salvatore Citraro, Giulio Rossetti


摘要:识别拓扑上定义良好的社区,这些社区也是由组成它们的节点所承载的同质w.r.t.属性,是一项具有挑战性的社会网络分析任务。我们通过引入Eva,一种自底向上的低复杂度算法,通过优化结构和属性同质聚类准则来识别网络隐藏的中尺度拓扑,从而解决了这样一个问题。我们评估了所提出的方法在异构现实世界标记网络数据集(如共引、语言和社交网络)上的应用,并将其与最新的社区发现算法进行了比较。实验结果表明,在单节点和多节点属性场景中,Eva保证了网络节点按照属性相似性分组到社区中,而不会显著降低划分模块度。




城市截面标度无法

预测城市的时间增长


原文标题:

Paradoxical Urban Scaling Across Cities and Over Time

地址:

http://arxiv.org/abs/1910.06732

作者:

Gang Xu, Zhengzi Zhou, Limin Jiao, Ruiqi Li


摘要:许多城市指标都是以幂律的形式随人口的变化而变化的,但截面标度律是否适用于个别城市的时间增长还不清楚。在这里,我们首先发现两个似是而非的比例关系,城市建成区与城市人口呈亚线性增长关系。但随着时间的推移,在大多数个别城市的人口呈线性增长,因为城市土地扩张速度比人口增长快。不同的城市具有不同的时间尺度指数,一个城市甚至在两个时期具有相反的时间尺度机制,有力地支持了单一时间尺度的缺失,进一步说明了城市横断面尺度在预测城市时间增长中的失败。我们提出了一个概念模型,它可以阐明城市截面标度律与时间轨迹之间的本质区别和联系。我们的模型表明,城市的建成区随着时间的推移有一个额外的增长,除了通过截面标度律所预测的假定增长外还有额外增长调和这种冲突。对GDP等指标的进一步分析,证实了截面与时间尺度关系之间的矛盾和概念模型的有效性。我们的发现可能为城市科学开辟一条新的道路。




使用基于注意力机制

的卷积神经网络对海量短

消息数据集进行语言识别


原文标题:

Language Identification on Massive Datasets of Short Message using an Attention Mechanism CNN

地址:

http://arxiv.org/abs/1910.06748

作者:

Duy Tin Vo, Richard Khoury


摘要:语言识别(LID)是一项具有挑战性的任务,尤其是当输入的文本很短且存在噪声时,例如,在社交媒体上的帖子和状态,或在游戏论坛上的聊天日志。通过为传统分类器(如朴素贝叶斯)设计特征集或应用深层神经网络分类器(如双向门控重复单元,编码器 - 解码器)来解决这一问题。这些方法通常是在大量的私人数据上进行训练和测试,然后由其他研究人员使用他们自己的数据集作为现成的包来使用和评估,因此,公布的各种结果是不可直接比较的。在本文中,我们首先基于一年的Twitter数据创建了一个新的大规模标记数据集。我们使用这个数据集测试几个现有的语言识别系统,以便获得一组连贯的基准模型,并且我们使我们的数据集公开可用,以便其他人可以进行比较。最后,我们提出了一个浅而有效的神经网络LID系统,它是一个带有注意机制的N-gram区域卷积神经网络。实验结果表明,我们的体系结构能够预测每秒数万个样本,并优于所有最先进的系统,预测效果提高了5%。




随机树上接触追踪

的精确公式和近似公式


原文标题:

Exact and approximate formulas for contact tracing on random trees

地址:

http://arxiv.org/abs/1910.06860

作者:

Augustine Okolie, Johannes Muller


摘要:我们考虑一个随机树上和配置模型上具有接触追踪的SIR模型。在一棵有根节点的树上,最初除了感染的根节点以外,所有的个体都是易感的,我们能够找到感染期分布的精确公式。因此,我们展示了如何在均匀混合种群的接触追踪树上扩展现有的理论。基于这些公式,我们讨论了树中随机性的影响和基本繁殖。我们发现,众所周知的结果为均匀混合的情况下,作为本模型(树形接触图)的限制。此外,我们提出了树上动力学的近似平均场方程,并利用消息传递方法,即配置模型进行了求解,并讨论了结果的解释和意义。




多路网络的社区发现


原文标题:

Community Detection in Multiplex Networks

地址:

http://arxiv.org/abs/1910.07646

作者:

Obaida Hanteer, Roberto Interdonato, Matteo Magnani, Andrea Tagarelli, Luca Rossi


摘要:多重网络中的社区检测问题一直是人们关注的焦点,即通过考虑节点间不同类型的交互作用,揭示节点群在社区中的意义。在这篇文章中,我们为读者提供了一个关于多重网络中社区检测算法的分类。我们根据不同的性质描述了不同的算法,并讨论了每种方法检测到的群落类型。然后,我们根据不同的标准对所评价的方法进行了广泛的评价,试图回答三个主要问题:所评价的方法在多大程度上能够检测出真实社区,不同的方法在多大程度上产生相似的社区结构,以及所评价的方法在多大程度上具有可扩展性。这项调查的最终目的是促使学者和实践者为手头的数据和任务选择正确的方法。




德国右翼在Twitter上的

仇恨言论:分析和自动检测


原文标题:

Right-wing German Hate Speech on Twitter: Analysis and Automatic Detection

地址:

http://arxiv.org/abs/1910.07518

作者:

Sylvia Jaki, Tom De Smedt


摘要:关于社交网络Twitter的讨论常常涉及到它在政治中的作用,涉及到一种观点表达何时变得冒犯、不道德或非法,以及如何处理它。鉴于互联网上的攻击性交流越来越多,人们对能够自动检测仇恨言论的新技术提出了需求,以帮助人类调节内容。这就带来了新的挑战,比如准确界定什么是言论自由,什么是在特定国家非法言论,以及准确了解仇恨言论的语言特征。为了了解德国局势,我们采用定量和定性方法,分析了2017年8月至2018年4月德国联邦选举期间发布的5万多条右翼德国仇恨性推文。在本文中,我们讨论了分析的结果,并展示了如何利用这些见解来开发自动检测系统。




对Twitter趋势主题的横向草根攻击


原文标题:

Lateral Astroturfing Attacks on Twitter Trending Topics

地址:

http://arxiv.org/abs/1910.07783

作者:

Tuğrulcan Elmas, Rebekah Overdorf, Ahmed Furkan Özkalay, Karl Aberer


摘要:草根攻击是使用自动帐户人为地将选定的关键字推到Twitter的热门话题上。横向草根攻击是此类攻击的一个复杂子集,其基本步骤是1)由受损账户发布,2)在创建后立即删除。前者使攻击更有效,后者有助于逃避侦查。我们提出了第一个大规模的分析方法来识别横向草根攻击。我们发现在2019年2月至2019年6月期间,有超过2万个草根账户被用来操纵3710个独特的关键词——至少占该地区每日趋势主题分析的10%。横向的草根攻击污染了趋势主题;允许操纵用户的观点;并允许其他可能被平台过滤的内容,例如非法广告。我们的研究结果有助于理解用户在社交媒体上的操纵行为,更广泛地揭示了逃避检测的敌对行为类型。




忽略边分布异质性

的最小熵随机块模型


原文标题:

Minimum entropy stochastic block models neglect edge distribution heterogeneity

地址:

http://arxiv.org/abs/1910.07879

作者:

Louis Duvivier, Rémy Cazabet, Céline Robardet


摘要:随机块模型的统计推断是一种识别网络内部社区的数学原理的方法。它的目标是最大似然的节点划分,即最有可能生成观测网络的邻接矩阵。在实际应用中,在所谓的微正则系综中,当比较两个具有相同数量和大小的社团的模型时,通常假定最佳的模型是最小熵模型,即能够产生较少的不同网络的模型。在本文中,我们证明了在某些情况下,最小熵模型不能根据连边分布来识别最重要的社区,即使它生成的观测图具有更高的概率。




自旋玻璃的方法用于

2距离最小支配集问题


原文标题:

Spin Glass approach to the 2-Distance Minimal Dominating Set problem

地址:

http://arxiv.org/abs/1910.07933

作者:

Yusupjan Habibulla, Hai-jun Zhou, Shao-meng Qin


摘要:L-距离最小支配集问题(LDMDS)在各类控制集问题中有着广泛的应用。最近,我们利用空腔方法研究了正则支配集问题,并发展了两种算法(置信传播抽取(BPD)算法和测量传播抽取(SPD)算法)来获得给定图的解,这两种算法都能很好地估计最小支配集的大小。现在,我们发展了自旋玻璃理论来研究二距离LDMDS问题。首先,我们发现在ER随机图的任何逆温度下,熵都是正的;过渡点出现在β为无穷处。第二,当节点度为2~9时,熵在正则随机图的有限逆温度处有过渡点;在其它情况下,熵不存在或β为无穷)。第三,信念传播算法的结果与副本对称理论的结果相同,BPD算法的结果优于贪婪启发式算法。




世界上几个人口稠密城市

基于景观几何的交通渗透


原文标题:

Landscape Geometry-based Percolation of Traffic in Several Populous Cities around the World

地址:

http://arxiv.org/abs/1910.07962

作者:

Fisca Dian Utami, Dui Yanto Rahman, Desyana Olenka Margaretta, Euis Sustini, Mikrajuddin Abdullah


摘要:我们从一个新的概念,即景观渗流来描述世界上几个人口稠密城市的平均交通拥堵情况,居住区面积与道路宽度之比是控制交通拥挤的一个基本参数。我们将该模型与世界上几个人口稠密的城市(直接从谷歌地球图片中提取)数据进行了比较,并展示了非常一致的结果。城市景观的标准,使一个城市被认为是拥挤或少拥挤。已经确定该模型还很好地解释了测量数据与世界上一些人口稠密城市的各种拥挤程度报告。(如公认的Tomtom拥挤程度或Numbeo交通指数)的一致性。这些发现可能有助于设计新的城市或重新设计拥挤城市的基础设施,例如,决定住宅面积多大和道路宽度多大。这项工作也显示了在导电复合物(电流)、冰山之间的盐水输送(流体流)和交通(车辆流)问题上的相似性。




DeepFork:GitHub

信息扩散的监督预测


原文标题:

DeepFork: Supervised Prediction of Information Diffusion in GitHub

地址:

http://arxiv.org/abs/1910.07999

作者:

Ramya Akula, Niloofar Yousefi, Ivan Garibay


摘要:信息在复杂的社交网络上传播的速度极快,换句话说,一条信息很快就会传播开来。无论是社交媒体还是在线平台,通常很难在混乱发生之前阻止这种扩散。Github是任何企业同时接触其潜在贡献者和客户的在线平台之一。利用这种软件开发模式,最近,在不同的社区出现了数以百万计的自由软件。为了了解Github中各种用户之间的相互影响、信息传播和传输信息的演变,我们开发了一个深度神经网络模型:DeepFork,一种考虑节点和拓扑特征的监督学习方法,旨在预测在复杂社会网络的信息扩散。在我们的实证研究中,我们观察到信息扩散可以通过使用监督学习的链接预测来检测。DeepFork优于其他机器学习模型,因为它能更好地从输入特征中学习判别模式。DeepFork有助于理解通过用户和存储库的二分网络进行传播和演变,即从一个用户到存储库再到另一个用户的信息流。



来源:网络科学研究速递

审校:赵子鸣

编辑:张爽



声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。


近期网络科学论文速递


不要越过停车线:大都市交通违规数据大规模调查 | 网络科学论文速递27篇

多样性孕育了科学创新却降低了科学影响力 | 网络科学论文速递24篇

合同市场的腐败风险:网络科学视角 | 网络科学论文速递20篇

小世界有利于网络推理 | 网络科学论文速递11篇

图表示学习综述 | 网络科学论文速递15篇

加入集智,一起复杂!






集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存