复杂动态环境下的搜索策略: MH370案例 | 网络科学论文速递27篇

Original 集智斑图集智俱乐部 2022-04-08

集智斑图最新论文栏目，关注复杂系统、网络科学、计算社会科学、生物物理、混沌理论、自组织系统等领域的前沿进展，每天爬取最新的arXiv预印本论文。

本文是对8月4日最新arXiv论文的汇总编译（by彩云小译）。更多最新论文，请扫下方二维码访问集智斑图网站获取：

核心速递

复杂动态环境下的搜索策略: MH370案例；
群体智慧: 无事生非；
马尔可夫链蒙特卡罗自适应物理神经网络；
新冠肺炎在线影子经济；
相互作用的非线性强化随机过程: 同步与非同步；
新冠肺炎限制对全球大气中二氧化氮和臭氧浓度的影响；
竞争平衡理论中符号网络临界行为的平均场解；
日本新冠肺炎流行病的成核与生长模型；
加权准确度算法在虚假新闻防伪中的应用；
双向决策多智能体 q 学习；
基于角度的传感器网络定位；
相互了解: 人机协作的意图、能力和信任校准；
价值分解多主体的演员-批评家；
可插拔的分布式资源分配器: 移动机器人网络中的分布式计算中间件；
开放存取的可能性条件；
MAPPER: 混合动态环境下基于进化强化学习的多主体路径规划；
梯度一致性: 有向图上线性收敛的分布式优化算法；
喜怒无常的学习者---- 解释强化学习代理人的竞争行为；
凸递减算法: 分布式综合与高维有限时间终止；
基于神经结构搜索的联邦深度学习；
基于深度学习的心脏机械变形激发波形反向机电重建；
群机器人系统中灾害响应的分散动态任务分配；
混合粒度控制在多机器人交互中的应用；
基于最大熵逆强化学习的逆动态博弈；
投票协议中的自然战略能力；
回归神经网络的门控理论；
基于 BDI 的校园邮件传递；

复杂动态环境下的搜索策略:
MH370案例

原文标题：

Search strategy in a complex and dynamic environment: the MH370 case

地址：

http://arxiv.org/abs/2004.14110

作者：

Stefan Ivić,Bojan Crnković,Hassan Arbabi,Sophie Loire,Patrick Clary,Igor Mezić

摘要：海面目标的搜索和检测是一个具有挑战性的任务，由于漂移动力学的复杂性和缺乏已知的最优解的搜索代理的路径。2014年3月8日失踪的马来西亚370航班(MH370)的搜寻失败突显了这一挑战。本文提出了一种改进的基于遍历动力系统理论的搜索算法，该算法能够适应海面上漂移搜索区域的复杂几何形状和不确定性。我们在对 MH370进行搜索的计算复制中说明了该算法的有效性。与传统的搜索方法相比，提出的算法在实际搜索操作的时间段内，成功率提高了5个数量级。对拟议搜索控制的模拟还表明，如果推迟开始搜索，发现碎片的初步成功率会增加。这是因为搜索区域存在交汇区，导致碎片在这些区域局部聚集，从而减少了需要搜索的区域的有效面积。

基于深度学习的心脏机械
变形激发波形反向机电重建

原文标题：

Inverse Mechano-Electrical Reconstruction of Cardiac Excitation Wave Patterns from Mechanical Deformation using Deep Learning

地址：

http://arxiv.org/abs/2008.01640

作者：

Jan Christoph,Jan Lebert

摘要：心脏电生理学的逆机械-电学问题是试图从心脏对电激励的机械变形中重建电激励或动作电位波模式。由于心肌细胞因兴奋-收缩耦合机制而受到电刺激而收缩，因此心肌细胞的变形应该反映宏观的动作电位波现象。然而，宏观电学和力学现象之间的关系是否具有明确的定义，是否具有足够的独特性，能够用于反向成像技术，即用机械活化映射作为电学映射的替代物，还有待于确定。在这里，我们提供了一个数值证明的原则，深度学习可以用来解决逆机电问题。我们通过训练一个卷积式自编码器神经网络来学习电激励、主动应力和组织变形之间的复杂关系，从而利用该网络来预测或重建二维和三维弹性可激发介质中机械变形引起的电激励波模式。我们证明，即使是复杂的三维电激励波现象，如涡旋波及其涡旋丝，可以用非常高的重建精度来计算机械变形使用轴角编码器神经网络，我们提供了与以前的结果比较物理或知识为基础的方法。

群体智慧: 无事生非

原文标题：

Wisdom of crowds: much ado about nothing

地址：

http://arxiv.org/abs/2008.01485

作者：

Sandro M. Reia,José F. Fontanari

摘要：一个令人困惑的想法是，对一个量的大小进行独立的估计，结果得出一个非常准确的预测，这个预测比任何或者至少比大多数个人的估计都要好，这种想法被称为群体智慧。在这里，我们使用费城联邦储备银行的专业预测者调查数据库来面对这一现象的统计和心理物理学解释。总的来说，我们发现这些数据并不支持任何关于群体智慧的解释。特别地，我们发现估计的方差(或多样性)与群体误差之间存在正相关关系，这与对多样性预测定理的一些解释不一致。此外，与心理物理学的增强五环模型的预测相反，我们发现偏斜的估计没有提供关于人群误差的信息。更重要的是，我们发现群体在不到2% 的预测中击败了所有个体，在不到70% 的预测中击败了大多数个体，这意味着随机选择的个体有可能比群体表现得更好。这些结果与由无偏见的预测者组成的非自然群体的表现形成鲜明对比，这些预测者几乎在所有预测中都胜过大多数个人。现实世界中的群体相对于其成员的温和的统计优势并不能证明其智慧是正确的，这很可能是选择性注意谬误的产物。

马尔可夫链蒙特卡罗
自适应物理神经网络

原文标题：

Adaptive Physics-Informed Neural Networks for Markov-Chain Monte Carlo

地址：

http://arxiv.org/abs/2008.01604

作者：

Mohammad Amin Nabian,Hadi Meidani

摘要：本文提出了一种基于马尔可夫链蒙特卡罗(MCMC)的自适应物理知情神经网络(APINNs) ，用于精确有效的无仿真贝叶斯参数估计。我们特别集中在一类参数估计问题，其中计算似然函数需要求解偏微分方程。提出的方法包括: (1)构造一个离线 PINN-UQ 模型作为正演模型的近似; (2)利用 MCMC 采样器生成的样本实时精化这个近似模型。提出的 APINN 方法不断改进这个动态近似模型，并保证逼近误差总是小于用户定义的残差阈值。我们用数值方法证明了所提出的 APINN 方法在解决泊松方程所支配的系统的参数估计问题中的性能。

新冠肺炎在线影子经济

原文标题：

The COVID-19 online shadow economy

地址：

http://arxiv.org/abs/2008.01585

作者：

Alberto Bracci,Matthieu Nadini,Maxwell Aliapoulios,Damon McCoy,Ian Gray,Alexander Teytelboym,Angela Gallo,Andrea Baronchelli

摘要：新型冠状病毒肺炎流行病已经重塑了世界范围内对商品和服务的需求。公共卫生紧急状况、经济困境和虚假信息导致的恐慌共同作用，将消费者和供应商推向了地下经济。特别是暗网市场(dwm) ，通过免费软件轻松访问的商业网站，已经获得了显着的普及。在这里，我们分析了从2020年1月1日到2020年7月7日之间的23个 dwm 中摘录的472,372个列表。我们确定了518个与新型冠状病毒肺炎产品直接相关的列表，并监测产品类别的时间演变，包括个人防护设备、药品(如 hydroxycloochine)和医疗欺诈(如疫苗)。最后，根据 Twitter 帖子和维基百科页面访问量，我们比较了它们的时间演变趋势和公众注意力的变化。我们揭示了在新型冠状病毒肺炎流感大流行期间，网络地下经济是如何演变的，并强调了持续监测 dwm 的重要性，尤其是当真正的疫苗或治疗可能供不应求的时候。我们预计我们的分析将会引起专注于保护公共健康的研究人员和公共机构的兴趣。

相互作用的非线性强化随机过程:
同步与非同步

原文标题：

Interacting non-linear reinforced stochastic processes: synchronization and no-synchronization

地址：

http://arxiv.org/abs/2008.01489

作者：

Irene Crimaldi,Pierre-Yves Louis,Ida Germana Minelli

摘要：富人变得更富有’的规则安慰以前经常选择的行动。当代理人进行交互时，个人选择行动的倾向的演化发生了什么？互动趋向于同质化，而每个个体的动态趋向于加强其自身的地位。强化过程的相互作用随机系统是近年来研究的热点问题，其中渐近行为被证明具有 a.s. 同步性。在本文中，我们考虑这样的模型，即使存在代理之间的相互作用，由于个体的非线性强化的选择，可能会发生同步的缺失。我们展示了这些系统如何自然地被视为协调博弈、技术或观点动态的模型。

新冠肺炎限制对全球大气中
二氧化氮和臭氧浓度的影响

原文标题：

Global Impact of COVID-19 Restrictions on the Atmospheric Concentrations of Nitrogen Dioxide and Ozone

地址：

https://arxiv.org/abs/2008.01127

作者：

Christoph A. Keller,Mat. J. Evans,K. Emma Knowland,Christa A. Hasenkopf,Sruti Modekurty,Robert A. Lucchesi,Tomohiro Oda,Bruno B. Franca,Felipe C. Mandarino,M. Valeria Díaz Suárez,Robert G. Ryan,Luke H. Fakes,Steven Pawson

摘要：为了防治新型冠状病毒肺炎大流行而采取的社会疏远措施已经导致了空气污染物排放量的广泛减少。要量化这些变化，就需要一切照旧地反事实，解释空气污染物的天气和季节变化。2020年1月至6月，我们在46个国家的5,756个观测点使用机器学习算法，根据来自美国航天局 GEOS-CF 模型的信息来评估二氧化氮和臭氧的变化。二氧化氮的减少与新型冠状病毒肺炎限制的时间和强度相关，范围从严重受影响的城市(如武汉，米兰)的60% 到变化不大的城市(如里约热内卢，台北)。自2020年2月以来，NO2浓度平均比正常情况低18% 。中国经历了最早和最急剧的下降，但自4月份以来，浓度基本上已经恢复，与通常的估计值保持在5% 以内。欧洲和美国的二氧化氮排放量减少较为缓慢，从3月下旬开始的复苏步履蹒跚。我们估计，2020年前6个月全球氮氧化物(no + no 2)排放量减少为2.9 TgN，相当于每年人为总量的5.1% 。非线性大气化学的竞争影响使地表臭氧的响应变得复杂。虽然地表臭氧在一些地点增加了高达50% ，我们发现2020年2月至6月期间对每日平均臭氧的总体净影响很小。然而，我们的分析表明，由于滴定减少和白天臭氧减少，夜间臭氧增加，臭氧日变化周期趋于平缓，反映出光化学生成减少。氧气的反应取决于季节、时间尺度和环境，如果氮氧化物排放量继续减少，预测表面氧气的下降。

竞争平衡理论中
符号网络临界行为的平均场解

原文标题：

Mean-Field Solution for Critical Behavior of Signed Networks in Competitive Balance Theory

地址：

http://arxiv.org/abs/2008.00537

作者：

R. Masoumi,F. Oloomi,A. Kargaran,A. Hosseiny,G. R. Jafari

摘要：提出了竞争平衡模型，作为平衡模型的扩展，以解决签名网络中的利益冲突。在这种模式中，两种不同的范式由于竞争利益而相互竞争，以支配系统并强加自己的价值观。本文采用平均场解法，研究了竞争平衡模型的热行为。我们的结果表明，在一定温度下，两种竞争利益之间的对称性会自发破坏，从而导致离散相变。因此，从一个异质的符号网络开始，如果代理人的目标是最终减少来自平衡理论的压力，那么进化最终只选择一个现存的利益和稳定性，而这个利益和稳定性是由一个范式主导的网络产生的。临界温度与节点数成线性关系，这在热平衡理论中也是线性关系。最后通过一系列模拟验证了平均场理论的结果。

日本新冠肺炎流行病的
成核与生长模型

原文标题：

A nucleation and growth model for COVID-19 epidemic in Japan

地址：

http://arxiv.org/abs/2008.01690

作者：

Yoshihiko Takase

摘要：通过动态相变的基本方程分析了新型冠状病毒肺炎在日本和东京的流行情况。结果表明，该流行病与随机成核线性生长模型吻合较好，表明2020年3月13日至2020年5月22日期间的流行病仅受初始敏感性、畴生长速率和成核衰变常数三个常数的速率限制。该模型由一个方程组成，初始的具体情况是线性的，因此可以很好地预测流行病的发生。

加权准确度算法
在虚假新闻防伪中的应用

原文标题：

Weighted Accuracy Algorithmic Approach In Counteracting Fake News And Disinformation

地址：

http://arxiv.org/abs/2008.01535

作者：

Kwadwo Osei Bonsu

摘要：随着世界越来越依赖互联网进行信息交流，一些过分热心的记者、黑客、博客作者、个人和组织往往滥用自由信息环境的天赋，为了自己的目的，用假新闻、虚假信息和自命不凡的内容污染环境。因此，有必要极其严肃地处理假新闻和虚假信息的问题。本文提出了一种基于约束机制的虚假新闻检测和报道方法，该方法利用了四种机器学习算法的加权准确度。

双向决策多智能体 q 学习

原文标题：

QPLEX: Duplex Dueling Multi-Agent Q-Learning

地址：

http://arxiv.org/abs/2008.01062

作者：

Jianhao Wang,Zhizhou Ren,Terry Liu,Yang Yu,Chongjie Zhang

摘要：我们在流行的集中训练和分散执行(CTDE)的范例中探索基于价值的多代理强化学习。CTDE 要求最优联合行动选择与最优个体行动选择具有一致性，称为 IGM (个体-全局-最大值)原则。然而，为了实现可扩展性，现有的 MARL 方法要么限制其值函数类的表示性，要么放松 IGM 的一致性，这可能导致策略不良甚至分歧。本文提出了一种新的 MARL 方法，称为双向决策多智能体 q 学习(QPLEX) ，它采用双向决策网络结构来分解联合值函数。这种双重决策体系结构将 IGM 原理转化为易于实现的优势函数约束，从而实现了高效的值函数学习。理论分析表明，QPLEX 解决了一类丰富的任务。星际 II 单元微观管理任务的经验性实验表明，QPLEX 在两个在线和离线任务设置中都明显优于最先进的基线，同时也表明 QPLEX 实现了高抽样效率，并且不需要额外的探索就可以从离线数据集中获益。

基于角度的传感器网络定位

原文标题：

Angle-Based Sensor Network Localization

地址：

http://arxiv.org/abs/1912.01665

作者：

Gangshan Jing,Changhuang Wan,Ran Dai

摘要：本文研究了基于角度的传感器网络定位问题，即在传感器网络中确定所有传感器的位置，给定部分传感器(称为锚点)的位置和基于各传感器局部坐标框架测量的角度约束。首先证明了一个具有非退化双边有序的框架必须是角可固定的，这意味着它可以唯一地由平移、旋转、反射和均匀缩放的边之间的角确定。然后证明了一个 ASNL 问题的唯一解当且仅当接地框架是可固定的且锚点不是共线的。随后，ASNL 分别在集中式和分布式环境下得到解决。将集中式 ASNL 表示为无噪声和有噪声情况下的秩约束半定规划(SDP) ，并提出了一种处理大规模 ASNL 的分解方法。采用基于传感器间通信的分布式协议解决分布式 ASNL 问题。分别给出了等价于线性 SDP 的图形条件、 SDP 的分解以及分布式协议的效率。最后，通过仿真实例验证了理论分析的有效性。

相互了解:
人机协作的意图、能力和信任校准

原文标题：

Getting to Know One Another: Calibrating Intent, Capabilities and Trust for Human-Robot Collaboration

地址：

http://arxiv.org/abs/2008.00699

作者：

Joshua Lee,Jeffrey Fong,Bing Cai Kok,Harold Soh

摘要：共同的经验表明，相互熟悉的代理人更能够一起工作。在这项工作中，我们解决了人机协作中的意图和能力标定问题。特别是，我们关注的场景是机器人试图帮助一个无法直接表达自己意图的人。此外，两个代理人可能有不同的能力，是未知的彼此。我们采用一个决策理论的方法，并提出 TICC-POMDP 建模这一设置，与相关的在线解决器。实验表明，我们的方法导致更好的团队性能，在模拟和现实世界的研究与人的主题。

价值分解多主体的演员-批评家

原文标题：

Value-Decomposition Multi-Agent Actor-Critics

地址：

http://arxiv.org/abs/2007.12306

作者：

Jianyu Su,Stephen Adams,Peter A. Beling

摘要：外部状态信息的开发已经成为多智能体强化学习中一个非常活跃的研究领域。QMIX 使用非负函数逼近器代表联合行动值，并且在多代理基准测试、星际争霸 II 微管理任务中取得了最好的性能。然而，我们的实验表明，在某些情况下，QMIX 与 A2C 不兼容，A2C 是一种提高算法训练效率的训练范式。为了在训练效率和算法性能之间取得合理的平衡，我们将价值分解扩展到与 A2C 兼容的参与者-评论者，提出了一种新的参与者-评论者框架，即价值分解参与者-评论者框架(value-decomposition actor-critics，vdac)。我们在星际争霸2的微观管理任务测试平台上对 vdac 进行了评估，结果表明该框架比其他评论者方法提高了性能中位数。此外，我们通过一系列烧蚀实验来确定影响 vdac 性能的关键因素。

可插拔的分布式资源分配器:
移动机器人网络中的
分布式计算中间件

原文标题：

The Pluggable Distributed Resource Allocator (PDRA): a Middleware for Distributed Computing in Mobile Robotic Networks

地址：

http://arxiv.org/abs/2003.13813

作者：

Federico Rossi,Tiago Stegun Vaquero,Marc Sanchez Net,Maíra Saboia da Silva,and Joshua Vander Hook

摘要：我们介绍了可插拔的分布式资源分配器(PDRA) ，这是一个用于异构移动机器人网络中的移动分布式计算的中间件。PDRA 使自主机器人代理能够共享计算资源，用于昂贵的计算任务，如定位和路径规划。它位于现有的单代理计划器/执行器和现有的计算资源(例如 ROS 包)之间，拦截执行器的请求，如果需要，透明地将它们路由到其他机器人执行。PDRA 是可插拔的: 它可以集成到现有的单机器人自治堆栈中，只需要进行最小的修改。任务分配决策由一个混合整数规划算法执行，以共享世界的方式解决，该算法模拟 CPU 资源、延迟需求，以及多跳、周期性、带宽有限的网络通信; 该算法可以最小化总体能耗，或最大化完成可选任务的回报。仿真结果表明，在具有代表性的多机器人方案中，PDRA 能够比朴素的调度器降低50% 以上的能量和 CPU 使用量，在嵌入式平台上运行，在延迟和中断容忍网络(DTNs)中表现良好。PDRA 根据开放源码许可向社区提供。

开放存取的可能性条件

原文标题：

Posibility conditions for Open Access

地址：

http://arxiv.org/abs/2008.00076

作者：

Jacinto Davila

摘要：这是一个试图形式化的条件的可能性，免费，自由，开放获取科学知识的游戏。挑战在于阐明参与宏大科学对话的代理人愿意开放共享、交换、协商或放弃他们的贡献的条款，考虑他们相应的意图、目标、信念和预期效用。从这里描述的游戏中可以得出许多结论。我们在建模过程中作出了许多简化的决定，当然，这些决定必须作为这些结论的决定性背景加以考虑。然而，可以肯定的是，在目前的游戏条件下，即使所有其他学术代理人都选择开放获取，编辑们仍然会继续在通行费和知识分配模型上下赌注。

MAPPER:
混合动态环境下基于
进化强化学习的多主体路径规划

原文标题：

MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments

地址：

http://arxiv.org/abs/2007.15724

作者：

Zuxin Liu,Baiming Chen,Hongyi Zhou,Guru Koushik,Martial Hebert,Ding Zhao

摘要：动态环境下的多智能体导航对于将大规模机器人应用于现实环境具有重要的工业价值。针对混合动态环境下的局部规划问题，提出了一种基于进化强化学习的分散部分可观测多智能体路径规划方法。基于强化学习的方法在具有目标条件稀疏报酬的长时间任务中通常会出现性能下降的问题，因此在全局规划器的指导下将长时间导航任务分解为许多简单的子任务，从而提高了 agent 在大环境下的性能。此外，现有的多智能体规划方法要么假设周围环境的完全信息，要么假设邻近动态智能体的同质性，这在实践中可能不适用。该方法采用基于图像的表示方法对动态障碍物的行为进行建模，并在没有同质性假设的混合动态环境中训练策略。为了保证多智能体训练的稳定性和性能，我们提出了一种可以方便地扩展到大型复杂环境中的进化训练方法。实验表明，与传统的基于反应的规划程序 LRA * 和基于最新学习的方法相比，MAPPER 能够在面对大量非合作的动态障碍时获得更高的成功率和更稳定的性能。

梯度一致性:
有向图上线性收敛的
分布式优化算法

原文标题：

Gradient-Consensus: Linearly Convergent Distributed Optimization Algorithm over Directed Graphs

地址：

http://arxiv.org/abs/1909.10070

作者：

Vivek Khatana,Govind Saraswat,Sourav Patel,Murti V. Salapaka

摘要：在这篇文章中，我们主要研究了一个凸目标函数的和 f = ∑ ni = 1fi 的多代理最佳化问题，其中，fi 在 n 个代理的网络中只对代理 i 局部有效。代理只与通过由有向图控制的有向边连接的邻居通信。在本文中，我们提出了一个“先优化后一致”的框架来解耦分布式优化算法中的梯度下降步骤和一致性步骤。利用这个框架，我们开发了一个新的分散式演算法来解决上述多智能体凸最佳化问题。在这种方法中，每个代理维护一个最优解的估计。在算法的每次迭代过程中，代理人利用局部可用的梯度信息和有限时间近似一致性协议向最优解移动(因此称为“梯度一致性”方法)。我们证明了当聚合函数 f 是强凸光滑的时候，该算法收敛于一个全局线性率。我们还证明，在 fi 是凸的和光滑的松弛假设下，与先前的技术状态相比，该方法具有线性收敛速度(按迭代次数计算) ，直到达到给定 > 0的最优目标函数值的 o ()邻域。据我们所知，在这些假设条件下，该方法的收敛速度优于文献中已知的最佳速度估计。并通过求解两个分布式优化问题对算法进行了数值评价。结果表明，与现有的分布式优化算法相比，该算法具有相似的精度解，减少了计算占用空间。

喜怒无常的学习者---- 解释
强化学习代理人的竞争行为

原文标题：

Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents

地址：

http://arxiv.org/abs/2007.16045

作者：

Pablo Barros,Ana Tanevska,Francisco Cruz,Alessandra Sciutti

摘要：设计参与竞争性交互的人工智能体的决策过程是一项具有挑战性的任务。在竞争环境中，代理不仅具有动态环境，而且直接受到对手行为的影响。观察智能体的 q 值通常是解释智能体行为的一种方式，然而，并不能显示所选行为之间的时间关系。我们通过提出 emph { Moody 框架}来解决这个问题。我们通过使用竞争性多人厨师帽卡牌游戏进行一系列实验来评估我们的模型，并讨论我们的模型如何允许代理人获得游戏中竞争动态的整体表示。

凸递减算法:
分布式综合与高维有限时间终止

原文标题：

Convex Decreasing Algorithms: Distributed Synthesis and Finite-time Termination in Higher Dimension

地址：

http://arxiv.org/abs/2007.13050

作者：

James Melbourne,Govind Saraswat,Vivek Khatana,Sourav Patel,Murti V. Salapaka

摘要：本文介绍了分布式算法的一般数学框架，以及应用中经常满足的单调性质。利用这些属性可以为收敛算法提供有限时间保证，这些算法适合在没有中央权威的情况下使用。一个主要的应用是高维的一致性算法。这些追求激发了一个新的点对点凸包算法，我们演示了一个实例化的理论描述。针对凸集的多样性以及在高维空间中知道这些集合可能产生的计算和通信代价，提出了一种基于轻量范数的停止准则。更明确地说，我们给出了一个在有限时间内终止的分散式演算法，它适用于高维的一致性问题，并保证了一致性算法在范数内的收敛性，在任意给定的容差范围内。给出了一致最小二乘估计和分布式函数确定的应用。通过 MATLAB 仿真，说明了该算法的实用性。

基于神经结构搜索的联邦深度学习

原文标题：

FedNAS: Federated Deep Learning via Neural Architecture Search

地址：

http://arxiv.org/abs/2004.08546

作者：

Chaoyang He,Murali Annavaram,Salman Avestimehr

摘要：联邦学习(FL)已被证明是一种有效的学习框架，当数据由于隐私、通信成本和监管限制而不能集中时。在外语环境下训练深度学习模型时，人们使用在集中式环境中发现的预定义模型体系结构。但是，这种预定义的体系结构可能不是最佳选择，因为它可能不适合具有不同和独立分布(non-IID)的数据。因此，我们提倡自动化联邦学习(AutoFL) ，以提高模型的准确性并减少手工设计工作。我们通过神经结构搜索(NAS)来专门研究自动运行的自动运行模式，它可以自动化设计过程。我们提出了一种联邦 NAS (fedinas)算法，帮助分散的工作人员协作搜索更好的体系结构和更高的准确性。我们还构建了一个基于 fedinas 的系统。我们在非 iid 数据集上的实验表明，fedina 搜索的体系结构能够胜过手工预定义的体系结构。

群机器人系统中
灾害响应的分散动态任务分配

原文标题：

Decentralized Dynamic Task Allocation in Swarm Robotic Systems for Disaster Response

地址：

http://arxiv.org/abs/1907.04394

作者：

Payam Ghassemi,David DePauw,Souma Chowdhury

摘要：多个机器人系统协同工作，可以为不同的现实应用(如灾难响应)提供重要的解决方案，其中任务分配问题尤为突出。现有的分散多机器人任务分配(MRTA)方法很少能同时提供以下功能: 考虑任务截止期限、机器人范围和任务完成能力限制以及允许在动态任务空间下进行异步决策。为了提供这些能力，本文提出了一种新颖的二部图构造和匹配的计算效率算法。在多无人机洪水响应应用中对其性能进行了测试。

混合粒度控制
在多机器人交互中的应用

原文标题：

Improving Human Performance Using Mixed Granularity of Control in Multi-Human Multi-Robot Interaction

地址：

http://arxiv.org/abs/1909.07487

作者：

Jayam Patel,Carlo Pinciroli

摘要：由于潜在的大量的单位参与，与多机器人系统的互动可能会超过任何个人操作员的理解跨度的限制。在以前的工作中，我们研究了如何通过在面向环境和面向机器人两种模式下与机器人交互来解决这个问题。在本文中，我们研究如何将这一概念应用到多个操作员在多机器人系统上执行监察操作的情况。虽然额外的操作员的存在表明可以完成更复杂的任务，但是关于如何有效地完成这些任务的研究很少。特别是，出现了一个挑战——由于缺乏对任务的参与、对其状态的了解以及对系统和其他操作员的信任而导致的外环性能问题。通过对28名操作员和8名实际机器人的用户研究，研究了多人多机器人交互中混合粒度的概念对用户参与、感知和信任的影响，同时平衡了多个操作员之间的工作负载。

基于最大熵逆
强化学习的逆动态博弈

原文标题：

Inverse Dynamic Games Based on Maximum Entropy Inverse Reinforcement Learning

地址：

http://arxiv.org/abs/1911.07503

作者：

Jairo Inga,Esther Bischoff,Florian Köpf,Sören Hohmann

摘要：我们考虑动态博弈的反问题，其中寻找费用函数参数来解释观察到的相互作用的参与者的行为。将最大熵逆强化学习推广到 n 参与人情形，以求解具有连续值状态和控制空间的逆动态对策。我们提出了从观测数据中辨识成本函数参数的方法，这些数据对应于(i)一个 Pareto 有效解，(ii)一个开环纳什均衡点或(iii)一个反馈纳什均衡点。进一步，我们给出了每一类反动态博弈成本函数参数估计的无偏性结果。通过一个非线性动态博弈和一个线性-二次动态博弈的仿真实例，验证了该方法的适用性。

投票协议中的自然战略能力

原文标题：

Natural Strategic Abilities in Voting Protocols

地址：

http://arxiv.org/abs/2007.12424

作者：

Wojciech Jamroga,Damian Kurpiewski,Vadim Malvone

摘要：安全特性通常集中在系统的技术方面。一种隐式假设是，用户将以正确的方式行事，以保护手头的属性。在现实生活中，这不是理所当然的。特别是，难以使用且代价高昂的安全机制常常被用户忽略，并且不能真正保护系统免受可能的攻击。在这里，我们提出了一个基于用户战略行为的复杂性的分级安全概念。更确切地说，我们建议，安全属性满足的级别可以根据以下两个方面来定义: (a)选民为使之成为现实而需要执行的策略的复杂性，以及(b)用户在执行过程中必须使用的资源。越简单，越便宜，安全程度越高。我们在一个基于电子投票场景的案例研究中演示了这个想法的工作原理。为此，我们建模 vVote 实施 Pret 投票协议，用于抵制胁迫和选民可验证的选举。然后，我们确定“自然”的策略，为选民获得无接收，并衡量选民的努力，他们需要。我们也会看到强制者通过随机化攻击来破坏选举是多么的困难。

回归神经网络的门控理论

原文标题：

Theory of gating in recurrent neural networks

地址：

http://arxiv.org/abs/2007.14823

作者：

Kamesh Krishnamurthy,Tankut Can,David J. Schwab

摘要：RNNs 是流行的动力学模型，用于处理序列数据。以前理解 RNNs 特性的理论工作主要集中在具有附加相互作用的模型上，其中一个单位的输入是网络中剩余单位输出的加权和。然而，有充分的证据表明，神经元可以有门控-即乘法-相互作用。这种门控相互作用对网络的集体动力学有着重要的影响。此外，在机器学习中表现最好的 RNNs 具有门控交互作用。因此，限制交互有利于信息处理和学习任务。我们发展了一个动态平均场理论(DMFT)的门，以了解动态制度所产生的门。我们的门控 RNN 在一定范围内退化为经典的 RNN，并且与机器学习中常用的门控模型密切相关。我们使用随机矩阵理论(RMT)来解析表征雅可比的频谱，并说明门是如何产生慢模和边界稳定的。因此，门控是一个潜在的机制，以实现计算涉及线吸引子动力学。利用门控网络的 Lyapunov 谱研究了门控网络的长时间行为，并利用 DMFT 对最大李亚普诺夫指数进行了分析预测。我们还证明了闸门引起了一个新的、不连续的向混沌的过渡，其中临界点的扩散与混沌动力学的出现是解耦的，这种混沌状态的性质被详细描述了。利用 DMFT 和 RMT 绘制了门控 RNN 的相图。最后，我们利用伴随灵敏度框架来设计梯度的 DMFT。这里发展的理论阐明了控制相互作用产生的丰富的动态行为，并对建筑选择和学习动态有影响。

基于 BDI 的校园邮件传递

原文标题：

Toward Campus Mail Delivery Using BDI

地址：

http://arxiv.org/abs/2007.16089

作者：

Chidiebere Onyedinma,Patrick Gavigan,Babak Esfandiari

摘要：采用信念-欲望-意图(BDI)体系结构开发的自治系统通常都是在模拟环境中实现的。在这个项目中，我们试图建立一个 BDI 代理，用于现实世界中的校园邮件投递在卡尔顿大学的隧道系统。理想情况下，机器人应该通过移动应用程序接收送货订单，在车站收取邮件，在隧道中导航到达目的地车站，并通知收件人。我们将机器人操作系统(ROS)与 BDI 推理系统联系起来，以实现所需用例的子集。ROS 处理底层的感知和执行，BDI 推理系统处理高层的推理和决策。感官数据被编排好，并作为知觉从 ROS 发送到推理系统。这些感知然后被仔细考虑，并且一个动作字符串被发送回 ROS 来解释和驱动执行动作所需的执行器。在本文中，我们介绍了我们当前的实现，它关闭了硬件和软件集成的循环，并实现了完整系统所需的用例子集。

来源：集智斑图
编辑：王建萍

复杂系统前沿文献交流群

如果你经常关注复杂系统和跨学科研究进展，是网络论文速递栏目的长期读者，欢迎扫描集智小助手，向我们反馈你的需求。欢迎提出宝贵意见，我们一起来探索追踪前沿进展的更好方式。

参与论文速递用户调研后，我们将邀请你加入集智的科研文献交流群。

近期网络科学论文速递

对比网络分析的可视化框架 | 网络科学论文速递28篇

基于深度学习的气候数据时空预测新框架 | 网络科学论文速递21篇

城市结构对新冠肺炎蔓延的影响 | 网络科学论文速递17篇

在引文网络中发现科学共同体: 趋同聚类 | 网络科学论文速递17篇

基于环境噪声的网络重构 | 网络科学论文速递18篇

加入集智，一起复杂！

集智俱乐部QQ群｜877391004

商务合作及投稿转载｜swarma@swarma.org

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

波罗的海，电缆断裂！

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

萝莉岛事件背后所隐藏的真相，可能比我们想象的更恐怖

生成图片，分享到微信朋友圈

复杂动态环境下的搜索策略: MH370案例 | 网络科学论文速递27篇