如果你经常关注复杂系统和跨学科研究进展,是网络论文速递栏目的长期读者,欢迎扫描集智小助手,向我们反馈你的需求。欢迎提出宝贵意见,我们一起来探索追踪前沿进展的更好方式。
参与论文速递用户调研后,我们将邀请你加入集智的科研文献交流群。
本文翻译自“彩云小译”,仅供参考,感兴趣请查阅论文原文,更多最新arxiv论文,请下拉至文末点击“阅读原文”查看
时间箭头作为大系统中随机驱动的涌现属性;
扩展谢林模型中的粗糙度和雪崩: 城市中产阶级化的一种解释;
基于局部信息变分自动编码器的对手建模;
为什么你可以借钱的时候还要下注?;
狩猎与采集场景中多机器人互补团队的探索与协调;
基于多智能体元强化学习的自供能可持续边缘计算系统;
稳定资本2.0: 经济基础与基于风险的模型;
基于图神经网络的联合检测与多目标跟踪;
深度协调图;
部分信息共享的社会学习;
近地点: 区块链的高效对等网络设计;
种群博弈中自主学习主体的演化动力学;
人机交互环境下的深度强化学习反馈;
原文标题:
On Analyzing Antisocial Behaviors Amid COVID-19 Pandemic
http://arxiv.org/abs/2007.10712Md Rabiul Awal,Rui Cao,Sandra Mitrovic,Roy Ka-Wei Lee摘要:由于全球新闻报道了新型冠状病毒肺炎和在线和离线社区仇外心理和歧视的急剧上升,这种流行病已经不仅仅是一场生物危机。这些有害的行为对社会造成了沉重的负担,尤其是在这个令人生畏的时代。尽管这个问题很严重,但很少有研究研究新型冠状病毒肺炎流行期间的在线反社会行为。在这篇论文中,我们通过收集和标注超过4000万条与新型冠状病毒肺炎相关的 tweets 这样的大数据集来填补研究空白。特别地,我们提出了一个自动标注反社会行为 tweets 的注释框架。我们还对我们的注释数据集进行了一项实证分析,发现新的滥用词汇被引入到新型冠状病毒肺炎流行病中。我们的研究还确定了反社会行为的脆弱目标和影响在线反社会内容传播的因素。
原文标题:
The arrow of time (second law) as a randomness-driven emergent property of large systems
http://arxiv.org/abs/2007.10418Derek Wright,Roshan Klein-Seetharaman,Susanta K. Sarkar摘要:于具有可逆动力学的粒子系统来说,时间箭头是一种不可逆现象。自玻尔兹曼时代至今,时间之箭引发了争论和研究。然而,纳米技术和相关实验技术的巨大发展使时间之箭走到了最前沿,因为它具有实际意义。通过对粒子系统一维扩散的模拟,我们证明了时间箭头是大系统的涌现性质。我们证明了粒子系统返回原始构型的重现时间随着粒子数目的增加而迅速增长。在模拟的基础上,给出了经典粒子、费米子和玻色子的重现时间表达式。玻色子系统的重现时间最短,而经典粒子系统的重现时间最长。玻色子的平均重现时间周围的下垫面分布为泊松分布,费米子和经典粒子的下垫面分布为高斯分布。动态编码的概率方法允许测试过程而不是扩散和量化它们对重现时间的影响。原文标题:
Automatic Story Construction from News Articles in an Online Fashion
http://arxiv.org/abs/2007.10399摘要:本文提出了一种新颖的故事建构系统,以在线方式跟踪故事的演变。该系统使用了一种新颖的滑动窗口解决方案,名为“缓冲窗口” ,允许动态处理每个新的数据元素。为了以快速和内存有效的方式将一个新的数据元素分配到社区中,我们动态地应用 Louvain 方法的模块化最大化思想。作为实验验证的一部分,我们提供了一个有意义的新闻故事的一步一步的建设和支持的情况下,一套可视化。
扩展谢林模型中的粗糙度和雪崩:
城市中产阶级化的一种解释
原文标题:
Roughness and avalanches in an extended Schelling model: an explanation of urban gentrification
http://arxiv.org/abs/2007.10767Diego Ortega,Javier Rodríguez-Laguna,Elka Korutcheva摘要:通过谢林模型对居住区隔离进行了分析,其中两类主体根据一定的偏好和容忍水平,试图优化他们的居住环境。这项工作的几个变体都集中在城市或社会方面。鉴于这些模型考虑的是财富或容忍度的固定值,这里我们考虑的是经济环境或容忍度的突然变化如何影响封闭城市和开放城市框架内的城市结构,即取决于迁移过程是否相关。在封闭的城市框架下,主体倾向于聚集成簇,其边界可以用动力学粗化工具来表征。另一方面,在开放城市中,某种类型的近似代理人可能进入或离开城市,发生一系列雪崩,其统计性质进行了讨论。原文标题:
Optimal Sequential Task Assignment and Path Finding for Multi-Agent Robotic Assembly Planning
http://arxiv.org/abs/2006.08845Kyle Brown,Oriana Peltzer,Martin A. Sehr,Mac Schwager,Mykel J. Kochenderfer摘要:研究了具有任务间优先约束(如任务 a 和任务 b 都必须在任务 c 开始之前完成)的大型机器人团队的顺序任务分配和无碰撞路由问题。这些问题通常发生在机器人制造应用的装配规划中,其中的子装配必须在组合成最终产品之前完成。提出了一种计算最大完工时间问题泛最优解的分层算法。该算法在一组随机生成的问题实例上进行了评估,在这些实例中,机器人必须在“工厂”网格世界环境中的站点之间运输物体。此外,在高保真仿真中,我们证明了该算法的输出可以用于生成非完整差动驱动机器人的无碰撞轨迹。
原文标题:
Opponent Modelling with Local Information Variational Autoencoders
http://arxiv.org/abs/2006.09447Georgios Papoudakis,Filippos Christianos,Stefano V. Albrecht摘要:模仿其他行为主体(反对者)的行为对于理解行为主体如何相互作用和做出有效决策至关重要。现有的对手建模方法通常假设对局部观测和模拟对手选择的行动的知识,这可以大大限制其适用性。我们提出了一种基于变分自动编码器的新的建模技术,该技术仅仅利用被控主体的局部观察: 它的观察世界状态、选择的行为和收到的奖励。该模型与代理人的决策策略共同训练,使用深度强化学习技术。通过对不同的多智能体任务进行综合评估和消融研究,结果表明,该方法比不使用对手模型的基线方法获得了更高的收益,并且与完全获取对手信息的理想基线方法具有可比性。
原文标题:
Why Stake When You Can Borrow?
http://arxiv.org/abs/2006.11156摘要:随着智能合同平台自动管理数十亿美元的资本,量化投资者在这些系统中产生的投资组合风险变得越来越重要。最近的研究表明,利害关系证明(Proof of Stake,PoS)容易受到来自连锁借贷的金融攻击,其资本效率比工作证明(Proof of Work,PoW)引用的{ fanti _ PoS _ econ }更低。许多提高资本效率的方法已经被提出,这些方法允许监管者对他们的监管资产创造可替代的衍生品债权。在本文中,我们构建了一个统一的模型来研究这些建议的安全风险。这个模型结合了出生-死亡的 p‘ olya 过程和从信用衍生品文献中改编的风险模型来评估标记不平等和收益概况。我们发现衍生品的使用在“安全”和“不安全”之间有一个急剧的过渡。令人惊讶的是,我们发现与引用{ fanti2019 compound }相反,存在衍生品可以在这些网络中减少财富集中的条件。该模型也适用于分散财务(DeFi)协议,其中分割的资产被用作保险。基于 agent 的仿真验证了理论结果的正确性。
原文标题:
Exploration and Coordination of Complementary Multi-Robot Teams in a Hunter and Gatherer Scenario
http://arxiv.org/abs/1912.07521Mehdi Dadvar,Saeed Moazami,Harley R. Myler,Hassan Zargarzadeh摘要:狩猎和采集方法解决了动态多机器人任务分配问题,即任务在不知不觉中分布到环境中。这种方法使用了两个互补的代理团队: 一个敏捷地探索(猎人) ,另一个灵巧地完成(收集者)任务。尽管我们已经从任务规划的角度对这种方法进行了研究,但是对于多机器人的探索和协调问题仍然没有进行研究。提出了一种基于“期望信息增益”概念的猎人多机器人搜索算法,以最小化分布式任务完成的总成本。此外,我们提出了一个协调解决方案之间的狩猎者和收集者通过整合新的概念的利润率的概念,预期信息收益的概念。通过对大量仿真结果的统计分析,验证了该算法在不同复杂度障碍环境下的有效性。我们还证明,狩猎者和采集者之间缺乏有效协调,严重影响了规划的整体有效性,特别是在包含密集障碍和封闭走廊的环境中。最后,统计上证明了对于每种类型的代理,总的工作负载是平均分配的,这保证了所提出的解决方案不偏向于特定的代理,并且所有代理的行为类似于相似的特征。
原文标题:
Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable Edge Computing Systems
http://arxiv.org/abs/2002.08567Md. Shirajum Munir,Nguyen H. Tran,Walid Saad,Choong Seon Hong摘要:移动边缘计算(MEC)应用和功能的严格要求使得 MEC 主机的高容量和密集部署成为即将到来的无线网络。然而,操作这样高容量的 MEC 主机可以显著增加能源消耗。因此,基站(BS)单元可以作为自供电基站。针对具有边缘计算能力的自供电无线网络,研究了一种有效的能量分配机制。首先,建立了一个两阶段线性随机规划问题,其目标是在满足系统能量需求的同时,使系统的总能耗费用最小。其次,通过开发一种新的多智能体元强化学习(MAMRL)框架,提出了一种半分布式数据驱动的解决方案。特别是,每个 BS 扮演一个局部代理的角色,探索能源消耗和产生的马尔可夫行为,而每个 BS 将时变特征转移到一个元代理。按照顺序,元代理通过仅接受来自每个本地代理的带有自己状态信息的观测来优化(即利用)能量分配决策。同时,每个 BS 代理通过应用元代理的学习参数估计自己的能量分配策略。最后,通过分析确定性、非对称性和随机性环境中的不可再生能源使用、能源成本和准确性,对所提出的 MAMRL 框架进行了测试。实验结果表明,与其他基线方法相比,所提出的 MAMRL 模型可以降低11% 的不可再生能源使用量和22.4% 的能源成本(预测准确率为95.8%)。
原文标题:
Stablecoins 2.0: Economic Foundations and Risk-based Models
http://arxiv.org/abs/2006.12388Ariah Klages-Mundt,Dominik Harz,Lewis Gudgeon,Jun-You Liu,Andreea Minca摘要:稳定币是最广泛的资本化加密货币之一。然而,它们的风险因其设计而有很大的不同,而且人们对它们的了解往往很少。在本文中,我们试图为稳定生态理论提供一个基于风险的稳定生态经济结构的功能角色塑造。首先,我们将现有的经济模型与完全不同的保管系统相匹配。接下来,我们描述了在非监禁稳定性中出现的独特风险,并开发了一个将经济学和计算机科学的现有模型统一起来的模型框架。我们进一步讨论了这个建模框架如何适用于一系列广泛的加密经济系统,包括跨链协议、抵押贷款和分散交易。这些独特的风险产生了未回答的研究问题,这些问题将成为今后分散金融研究的关键。
原文标题:
Joint Detection and Multi-Object Tracking with Graph Neural Networks
地址:
http://arxiv.org/abs/2006.13164Yongxin Wang,Xinshuo Weng,Kris Kitani摘要:目标检测和数据关联是多目标跟踪系统的关键组成部分。尽管这两个组件高度相互依赖,但 MOT 的一个流行趋势是将检测和数据关联作为单独的模块,以级联的方式进行处理。由于这种级联过程,得到的 MOT 系统只能执行正向推理,不能通过整个流水线反向传播错误并进行纠正。这将导致整个流水线的性能欠佳。为了解决这个问题,最近的工作联合优化了检测和数据关联,并形成了一个综合的 MOT 方法,事实表明,这种方法在检测和跟踪方面都有改进。本文提出了一种基于图神经网络的联合 MOT 方法。该方法的核心思想是 GNNs 能够在空间域和时间域显式地模拟多个对象之间的复杂交互作用,这对于学习用于检测和数据关联的鉴别特征至关重要。我们还充分利用了运动特性在与外观特性一起使用时对 MOT 非常有用的事实。因此,我们提出的联合 MOT 方法也结合了外观和运动特征在我们的基于图的特征学习框架,导致更好的特征学习 MOT。通过对 MOT 挑战数据集的大量实验,我们表明我们提出的方法在目标检测和 MOT 上都达到了最高水平的性能。
原文标题:
Deep Coordination Graphs
地址:
http://arxiv.org/abs/1910.00091Wendelin Böhmer,Vitaly Kurin,Shimon Whiteson摘要:本文介绍了面向协同多 agent 强化学习的深度协调图(DCG)。DCG 根据协调图将所有代理的联合价值函数分解为代理对之间的收益,从而在代表能力和泛化能力之间实现了灵活的权衡。通过沿图的局部消息传递,可以使值函数达到最大值,从而实现端到端的 q 学习。利用深度神经网络对支付函数进行逼近,采用参数共享和低秩逼近方法显著提高样本效率。我们发现 DCG 可以解决捕食者-被捕食者任务,突出了相对过度泛化的病理学,以及具有挑战性的星际争霸 II 微观管理任务。
原文标题:
Social Learning with Partial Information Sharing
地址:
https://arxiv.org/abs/2006.13659Virginia Bordignon,Vincenzo Matta,Ali H. Sayed摘要:这项工作解决了在社会学习策略中分享部分信息的问题。在传统的社会学习中,代理人通过在每个瞬间执行两个操作来解决分布式多重假设检验问题: 首先,代理人从私人观察中合并信息,形成他们对一组假设的信念; 其次,代理人在邻居之间局部地合并他们的全部信念。在一个信息充分的环境中,只要网络的连通性允许信息在代理人之间传播,这些算法就能使代理人学会真正的假设。本文考虑了这样一种情况,即代理人仅仅为了评估其有效性而分享他们关于一个感兴趣的假设的信念,而不是分享他们的全部信念,并绘制了这种政策不影响真相学习的条件。我们提出了两种共享部分信息的方法,这取决于代理是否以自我意识的方式行事。研究结果显示,不同的学习方式如何产生,取决于所采用的方法和推理问题的内在特征。此外,有趣的分析指出了欺骗网络的可能性,只要被评估的兴趣假设足够接近真相。
原文标题:
Perigee: Efficient Peer-to-Peer Network Design for Blockchains
地址:
http://arxiv.org/abs/2006.14186Yifan Mao,Soubhik Deb,Shaileshh Bojja Venkatakrishnan,Sreeram Kannan,Kannan Srinivasan摘要:块环链中的一个关键性能指标是事务广播和确认之间的延迟(所谓的确认延迟)。虽然一致性技术的改进可以降低确认延迟,但确认延迟的一个基本下限是消息通过潜在的对等(p2p)网络的传播延迟(比特币的传播延迟为几十秒)。比特币和其他区块链使用的事实上的 p2p 协议是基于随机连接: 每个节点连接到一个随机子集的节点。由于它忽略了地理距离、带宽差异、散列能力和对等点之间的计算能力,所以诱导的 p2p 网络拓扑可能是非常次优的。我们提出了 Perigee,一个分散算法,自动学习一个有效的 p2p 拓扑调整到上述网络异构性,纯粹基于节点的交互与他们的邻居。受到关于多臂老虎机问题的文献的推动,Perigee 在保持与已知关系密切的邻居之间的联系和探索与以前未见过的邻居之间的新联系之间进行了最佳平衡。实验评估表明,近地点可以减少33% 的广播延迟。最后,Perigee 是简单的,计算量轻,抗对手,并兼容自私的对等点的兴趣,使其成为一个有吸引力的 p2p 封锁链协议。
原文标题:
The Evolutionary Dynamics of Independent Learning Agents in Population Games
地址:
http://arxiv.org/abs/2006.16068Shuyue Hu,Chin-Wing Leung,Ho-fung Leung,Harold Soh摘要:理解在多智能体环境下强化学习的进化动力学一直是一个悬而未决的问题。以前的工作主要集中在2人游戏上,而我们考虑人口游戏,这种游戏模型是由小的和匿名的代理组成的大规模人口的战略互动。本文提出了随机过程与基于奖励信号进行推理的自主学习代理动力学之间的形式关系。使用主方程的方法,我们提供了一个新的统一的框架,通过一个单一的族群动态描述偏微分方程(定理1)。通过一个涉及交叉学习代理的案例研究,我们说明定理1允许我们识别定性不同的进化动态,分析稳定状态,并获得对种群预期行为的洞察力。此外,我们提出了广泛的实验结果,验证了定理1适用于各种学习方法和群体博弈。
原文标题:
Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment
地址:
http://arxiv.org/abs/2007.03363Ithan Moreira,Javier Rivas,Francisco Cruz,Richard Dazeley,Angel Ayala,Bruno Fernandes摘要:机器人每天都在扩大它们在家庭环境中的存在,在家庭环境中执行任务的现象越来越普遍。在未来,机器人将越来越多地执行更复杂的任务,因此,能够尽快从不同来源获得经验。解决这个问题的一个可行的方法是交互式反馈,教练建议学习者从特定的状态采取哪些行动来加速学习过程。此外,深海强化学习最近被广泛应用于机器人学习环境和自主获取新技能。然而,当使用深度强化学习时,一个公开的问题是从原始输入图像中学习任务所需的过多时间。在这项工作中,我们提出了一种带有交互反馈的深度强化学习方法来学习在人-机器人场景中的家庭任务。我们比较了3种不同的学习方法,使用模拟机械臂组织不同的对象,提出的方法是: (i)深度强化学习(DeepRL) ,(ii)交互式深度强化学习使用以前训练过的人工智能代理作为顾问(agent-IDeepRL) ,和(iii)交互式深度强化学习使用人类顾问(human-IDeepRL)。我们证明了交互式方法为学习过程提供了优势。实验结果表明,使用 agent-IDeepRL 或 human-IDeepRL 的学习代理能够更早地完成给定的任务,并且与自主 DeepRL 方法相比错误更少。COVID-19后世界航空网络设想方案 | 网络科学论文速递26篇
使用时空图神经网络检验对新冠病毒肺炎的预测 | 网络科学论文速递35篇
新团队在创新和多学科研究中的关键作用 | 网络科学论文速递25篇
使用 Page Rank 随机漫步的网络导航 | 网络科学论文速递18篇
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
👇点击“阅读原文”,了解更多最新arxiv论文