查看原文
其他

如何预测Twitter用户的地理位置| 复杂性文摘10篇

复杂性文摘翻译组 集智俱乐部 2018-12-10


本期编译:复杂性文摘翻译组



01.用深度多视角学习
预测Twitter用户的地理位置


题目:Twitter User Geolocation using Deep Multiview Learning

地址:https://arxiv.org/abs/1805.04612


预测社交网络(例如Twitter)上用户的地理位置是近期的热门研究主题,已经提出了多种方法。大多数现有的研究都遵循基于内容或基于连接两种方法:前者基于用户生成的内容,而后者发掘用户之间社交网络的结构。


多入口神经网络结构


作者提出一种更通用的方法,这种方法不仅包含前述两种方法,还融入了其他可获取的信息去创建一个统一的模型。这种叫Multi-Entry Neural Network (MENET)的方法,利用了最新的深度学习和多视角学习成果。


利用文本,网络,和原始数据特征来实现的MENET方法,能有效发掘Twitter用户的地理位置,在2个公认的数据集上实现了应用的最高水准。




02.基于机器学习的 Facebook

帖子影响力指标预测


题目:Prediction of Facebook Post Metrics using Machine Learning

地址:https://arxiv.org/abs/1805.05579



在这篇短论文中,作者使用了三种常见的机器学习技术对Facebook帖子影响力指标进行了预测,并对各个方法的性能进行了评估(注:帖子影响力指标主要包括:评论,分享和喜欢的个数)。


由于社交媒体对社交行为有着巨大的影响,因此建立一个预测社交媒体中帖子影响力指标的自动模型,对市场,职场心理,教育和安全等社会各个领域具有重要借鉴意义。

三种常见机器学习工具模型对帖子影响力指标预测的有效性


本文分别使用了支持向量回归(SVR),回声状态网络(ESN)和自适应神经模糊注入系统(ANFIS)这三种常见的模型对帖子影响力指标预测的有效性进行了分析,并在一个公共的基准数据集上完成了模型的评估。 




03.科学中的性别差异:

还有多久女性才能得到平等的待遇?


题目:The gender gap in science: How long until women are equally represented?

地址:http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.2004956


在大多数科学,医学,科技方面的研究领域中,男性科学家的数量占总人数一半以上,在学术界的资深人群中(学术职称更高,拥有更多学术资源的人群),这种现象更为显著。以前大量的研究得出结论:性别差异和过去相比已经小了很多。这些研究给大家的印象是,男性和女性研究者的数量很快就会平等,并且当前一些为了招聘并留用更多女性科学家的各种举措也发挥了充分的作用。


在这篇文章中,我们使用了计算模拟的方法,确定了2002年以来,在超过1000万份已发表的学术文章中男性和女性作者的数量,从而可以让我们为科学和医学等许多学科,准确估算出研究人员的性别差距及其变化速度。


文章得出的结论是,从当前女性研究人员数量增长的速度上看,很多研究领域(如外科,计算机科学,物理,数学等等)在本世纪依然不会达到性别平等的状态(也就是指男性和女性科研人员人数相当)。


2016年女性作者的估算比例,在所有作者身份中,按所属国家/地区分类。


而且,不同国家的性别差异情况也大不一样。日本、德国和瑞士的女性研究人员数量惊人地少。同时,女性研究人员很少被委托撰写“邀请”论文(约稿),在发表的文章中也很少占据着更重要的作者位置(比如说,她们通常更少可能是最后一个作者或是独立作者),这一点和学术期刊编辑们的性别偏见相一致。我们的研究结论说明,我们需要更一步的改革才有可能缩小性别差距。




04.网络的智慧:
适应性演化网络
如何促进群体智慧


题目:The Wisdom of the Network: How Adaptive Networks Promote Collective Intelligence

地址:https://arxiv.org/pdf/1805.04766.pdf


在社会网络中,由于人们之间新的连接关系不断的形成,与此同时已存在的连接关系又不断的被断开,从而使得网络的结构也处于动态变化之中。人们普遍注意到,社会网络嵌入对我们的信息获取、信念形成和决策都具有强烈影响。然而,大多数研究忽视了社会网络的动态性,以及它在促进自适应群体智慧中的作用。


目前在该领域研究中尚不清楚的问题如下:

(1)个体行为如何影响网络结构,

(2)这种网络结构的自适应演化是否能促进个人和集体决策的准确性。


注:网络动力学图例。圆圈的颜色代表表现。每个圆的大小表示关注者的数量(即受欢迎程度)。虚线是在社会影响之前的估计分布,蓝色实线是后社会影响估计的分布情况,虚线是真实的相关关系。


在这篇文章中,我们通过一系列行为实验和计算机仿真来回答这些问题。我们的研究结果表明,嵌入在动态社会网络中的人群可以适应有偏见和非平稳的信息环境。因此,与静态网络和离散人群相比,(嵌入在动态网络中的)个人和集体的判断的准确性有了显著的提高。


此外,研究结果表明,动态网络中的群体表现远远优于网络中的最佳个人表现,并且最优的个体判断的精确性也会由于群体的影响而得到较大提升。因此,研究结果证明,基于适应性机制的动态社会网络能够精炼个体和群体判断的精确度




05.用高效编码原则
解释人类感知泛化的普遍规律


题目:Efficient coding explains the universal law of generalization in human perception

地址:http://science.sciencemag.org/content/360/6389/652?et_rid=34816647&et_cid=2025662



感知泛化和偏见是基本的认知能力。


例如,如果一只鸟吃了有毒的蝴蝶,它就会将它过去的经验推广到新的感知刺激物上,从而学会避免再捕食这一物种。


在认知科学中,“泛化的普遍规律”试图解释这种能力,并指出刺激之间的泛化将遵循它们在“心理空间”距离上的指数函数规律。在这里,作者质疑普遍规律的现有理论解释,并提出基于高效编码原则的替代阐述。


作者阐明,普遍规律必然来自任何信息处理系统(无论是生物体的还是人造的),它能使感知错误受到处理或传输信息能力限制的成本降到最低。



06.多米诺效应:
项目网络中
系统风险的
经验主义阐述


题目:The domino effect: an empirical exposition of systemic risk across project networks

地址:https://onlinelibrary.wiley.com/doi/abs/10.1111/poms.12890

活动网络分析是一种项目风险管理的常用工具。在传统意义上,通过拟定线性因果现象,这种分析类型被用来评估任务风险,该因果现象中,局部失效(如任务延迟)的规模决定了它对整个进程的潜在影响(如项目延迟)。活动网络是否受制于非线性因果现象?


受这一问题的驱动,一种应用于现实世界的项目数据计算框架被开发出来,以评估项目系统的风险。项目系统风险被明确视作一个级联过程的结果,这一过程会使一个活动网络瓦解——在这个活动网络中,任何一个任务的失误都可能对它的即时下游任务造成影响。

因此,文章证实:局部失效能够触发不定规模的连锁失效。相应地,一次中等程度的局部损坏则可能引发极大规模的系统崩溃。不仅如此,这种情况发生的可能性要远远高于预期。


对于这一问题,一种系统的审查方式应运而生,它将大规模失效的发生归结于活动网络的拓扑与暂存的特性。最后,就存在连锁失效的这一问题,文章对局部缓解进行了评估——结果显示,这种缓解方式既效率低下,又捉襟见肘。


考虑到这一发现具有普遍意义,我们的工作具有着很大的潜力,可以加深当前我们对造成大规模项目失效的因果机制的理论理解。




07.新书推荐
《复杂系统工程中的
涌现行为
:建模与仿真方法》

题目:Emergent Behavior in Complex Systems Engineering: A Modeling and Simulation Approach

地址:https://comdig.unam.mx/2018/05/08/emergent-behavior-in-complex-systems-engineering-a-modeling-and-simulation-approach/



图书封面


本书全面回顾了探索多学科领域中复杂系统工程的涌现行为的方法和技术。


对于复杂系统工程中的涌现行为,作者提出了理论分析和理论工具,使研究人造系统中的涌现行为成为可能。信息技术是如今现代社会的关键。


过去五十年来提出的科学理论现在可以通过最新的计算基础设施来实现。建模和仿真以及大数据技术都处于此类探索和研究的前沿。


本书提供了多种基于仿真的方法、技术和手段,旨在鼓励读者使用仿真技术来进一步理解复杂系统中的涌现行为。作者为系统(包括系统的系统)的设计、开发、管理、操作和维护提供办法。


本书旨在帮助更好地检测、分析、理解和管理复杂系统工程中固有的涌现行为,收获创新的实惠,避免来自不可预见的结果的危险。


图书信息:《复杂系统工程中的涌现行为:建模与仿真方法》

Saurabh Mittal,Saikou Diallo,Andreas Tolk,William B. Rouse(系列编辑)

威立(Wiley)出版社,2018年出版。




08.用基于图的半监督卷积神经网络
对危机相关的推特进行分类


题目:Graph Based Semi-supervised Learning with Convolution Neural Networks to Classify Crisis Related Tweets

地址:https://arxiv.org/abs/1805.06289

在诸如自然灾害等时间紧急的情况下,将遇害人发表于社会网络上的数据进行快速地的分类有助于人道主义援助组织获得态势意识并制定响应措施。然而,灾难发生之初的标注数据稀缺问题阻碍了机器学习任务,从而延误了危机应对。


在这篇论文中,作者提出利用归纳半监督技术来同时使用危机事件发生时丰富的未标注数据以及少量的标注数据。具体而言,就是采用一个基于图谱的深度学习框架来学习一个归纳半监督模型,其网络结构图见下图。

图:基于图谱的半监督学习模型的结构图


作者使用Twitter的两个真实世界的危机数据集来评估所提出的方法,结果表明,加入未标注数据与只使用标注数据相比结果有显著改进,具体实验结果如下表。


表:实验结果(L指标注数据,U指未标注数据)




09.复杂系统中
层次结构
涌现与进化


题目:Emergence and Evolution of Hierarchical Structure in Complex Systems

地址:https://arxiv.org/abs/1805.04924

众所周知,在技术领域和自然界,很多复杂系统呈现出层次的模块化。然而难以理解的是,这个层次结构(一个基本的网络性质)是如何涌现出来,并随着时间进化的呢?而且,层次系统通常是随着时间逐步设计的,以对新的输出和潜在的新输入提供支持;这非常不同于重新设计一个新系统的方式,当输入或输出变化后,需要从头开始。


本文提出一个模型框架,称为Evo-Lexis,它对进化层次系统中,一些普遍和基本的问题,提供了新的见解。Evo-Lexis把系统的输入建模成符号(源),把系统的输出建模成这些符号的序列(目标)。


当目标集合随着时间通过增加或删除发生变化时,Evo-Lexis会计算出一个给定层次结构的最优调整(增量式设计)。另外,在静态的(非进化的)设置下,Evo-Lexis会计算从源集合生成目标集合的最优层次结构(清空式设计)。

MRS 模型概览


文章聚焦下列问题:


(1)这个层次的一些关键性质,例如网络的深度、每个模块的可复用性或集中性、中间模块的复杂度(或序列长度)等等,是如何依赖于生成新目标的进化过程的?


(2)在什么情形下,涌现出的层次性呈现出“沙漏效应”?为什么极少的中间模块相比于其他模块,被更多地重复使用?


(3)在层次的进化过程中,中间模块是保持不变的吗?或者当高度可复用的模块显著变化时,存在“间断性平衡”吗?


(4)在增量式设计和相关的清空式设计的层次中,成本和结构上的不同是什么?



10.古典音乐中本福德定律的涌现


题目:Emergence Of Benford’s Law In Classical Music

地址:https://arxiv.org/pdf/1805.06506.pdf

贝多芬的《月光奏鸣曲》与柴可夫斯基的芭蕾《天鹅湖》有什么共同之处?他们都以“本福德分布定律”(Benford Distributed)为时间间隔形成音符流动的规律。该结果并非个案。


该研究提到,本福德定律来自于经验观察,在许多数据中,音符的前导数字更有可能是小而不是大。例如,1更有可能出现在前面的数字大于2,而后者更有可能是第一个数字大于3,等等。

左:古典音乐中的前一位音符分析,蓝色为本福德定律趋势,橙色为奏鸣曲演奏趋势

右:前两位音符分析,蓝色连续曲线呈现了理论上的本福德分布情况


该研究分析了大量巴赫、贝多芬、莫扎特、舒伯特和柴可夫斯基的作品,揭示了这些古典音乐作品与数学之间令人惊讶的联系。对于上述每一位作曲家,作者统计其作品中同一个音符被演奏的时间间隔,并发现相应数据集符合本福特定律。值得注意的是,不仅其首位数字符合本福特定律,而且所有位的数字都符合。



翻译:陶如意、Sylvia 、怪老爷、Elena、Dawn、Mary、薛亚飞、杜旭冲、金刚石 

审校:Philip、hong、strange loop

编辑:集智Luna

论文来源:comdig.unam.mx,arxiv.org




推荐阅读



协调动力学:乐队如何奏出和谐音乐?| 复杂性文摘6篇

前沿综述:关系数据的结构发现

论文解读:复杂网络的多尺度动态嵌入技术

学术动态:几何深度学习前沿 

加入集智,一起复杂!集智俱乐部团队招新啦!




集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存