查看原文
其他

火花访谈 | 发现社交网络数据中的金矿

刘建国 代观 2021-04-10




第四期火花访谈我们邀请到的嘉宾是来自上海财经大学的刘建国教授,刘教授同时也是上海财经大学金融科技研究院副院长。在本次访谈中,刘教授围绕如何做社交网络数据的分析,向大家分享了他的学术观点和研究动向。



// 嘉宾简介

刘建国:

上海财经大学讲席教授,上海市东方学者特聘教授,上海市曙光学者,上海财经大学金融科技研究院副院长,牛津大学Said商学院特聘研究员,主持国家自然科学基金4项,国家社科重大项目子课题1项,并以项目组骨干身份参加了欧盟第七框架基金和索罗斯基金,目前主要从事复杂社交网络数据挖掘与知识图谱的研究工作。


研究方向包括

商务智能获客模型,互联网金融与消费金融的风险分析,数据挖掘与知识管理。


取得的主要学术成绩包括

2016年获中国系统工程学会“青年科技奖”,2014年获得“上海市东方学者特聘教授”,“上海市曙光学者”称号,2011年获得“上海市科技启明星(A类)”称号。主持国家自然科学基金4项(61773248,71171136(结题评为优秀),61374177, 10905052),国家自然科学基金重大研究计划重点项目(91024026) 子课题一项(结题评为优秀)。以项目组骨干成员身份参与欧盟第七框架基金项目(238597),FOC-II项目(95753)和索罗斯(Soros)基金。发表SCI/SSCI论文90余篇。SCI总引用次数1960次,H指数22。



。    。。。。。          

  研究经历及动向  

 问:

请您简单介绍一下您的研究经历?



答:

我是研究复杂系统与系统工程,现在在做在线社交网络的用户行为分析,主要是从统计物理、计算机和管理等交叉科学的角度开展研究。之所以这样是因为我的背景也很“复杂”,本科专业是应用数学,研究生是运筹学与控制论,第一个博士学位,专业是管理科学与工程,在大连理工大学系统工程研究所,后去中国科学技术大学做博士后,领域是理论物理。后来又去了瑞士弗里堡大学拿了理论物理专业的博士学位。

对于系统工程而言,就是从系统的角度来审视复杂系统的结构特性和功能特性,以及如何通过分析研究对象的结构来研究它的功能等等。刚开始研究的是知识管理,就是如何对于一个复杂知识进行建模与分析,或者对知识组织进行建模和分析。

2010年2月从瑞士毕业以后,发现牛津大学 Said 商学院发布的一个研究职位,从统计物理和机器学习的角度来分析现在的通讯工具(如社交网络和智能手机)对人的决策行为的影响。通过五轮各种各样的面试很幸运申请到了,在那里工作了两年。后回国做在线社交媒体的用户关系的建模与分析。

上述就是我这个比较“复杂”的学术背景。




 问:

您当初为什么要选择在知识管理这个领域做研究呢?



答:

因为老师在做这个领域。从数据到信息,再到知识,这是大工系统所几十年的研究脉络开发信息系统,或者决策支持系统的目的是帮助组织或决策者进行管理和决策,然而由于系统流程与组织管理流程的不匹配,使得很多信息系统不仅没有帮助管理、决策者提高效率,反而增加了管理成本。


我理解的知识管理,就是如何把组织中的人的大脑中的知识提取出来进行管理和组织,构建一套可复制、可重用,甚至可复用的系统。我们是在这个思想的指导下去研究的。有点像我们现在所说的“知识谱图”。


“知识图谱”这个概念是大连理工大学刘则渊老师在十几年前提出的,英文叫 Knowledge Mapping。但当时做的是科学方面的研究,不是现在计算机方面的研究。现在“知识图谱”其实是“关系”,“知识图谱”是把知识和关系以时间轴的维度展开,空间维度上的叫“图”,时间关系上的叫“谱”。当前的大多数的“知识图谱”只有“图”而没有“谱”,缺了时间的维度。把知识点、作者与期刊之间的演化形式以及它们的关系展示出来并进行分析,这是比较完整的“知识图谱”。




问:

您当初选择做复杂网络这方面研究的动因是什么呢?



答:

当时我的导师想做网络科学方面的课题,因为他是系统工程出身,系统工程在思考问题时一般会从三个方面:第一是“概念模型”,确认研究的对象是什么,内涵与外延有哪些,有什么新意。第二是把这些概念拆分成若干的要素,分析要素和要素之间的关系,称为“结构模型”。第三是“数学模型”,就是把研究对象数学化,线性化。比如说数学学科、物理学科,还有现在我们所研究的复杂系统、人工智能、统计推断、自然语言处理,这些都被认为是第三个层次的“数学模型”。最重要的创新是概念模型和结构层次模型的创新,比如你能否提出新的概念,发现新的关系并尝试量化分析等。

当时我的导师发现国际上有“复杂网络”的课题,其实这是国内非常早开始了解并研究“复杂网络”的,我很感兴趣,认为它更加“接地气”,就加入了这个项目。当时通过阅读相关文献在“复杂网络”的研究领域里起步,后来又涉及到了知识管理、个性化推荐以及社交媒体的分析。就这样在这领域做了十几年。



 问:

目前您的研究遇到的最大难点是什么呢?



答:

最大的难点是如何能把自己的研究与实际的业务场景结合起来并产生真正的作用,也就是商用。

把一个问题抽象成科学问题,然后思考这个科学问题最后能形成什么样的成果,服务于什么产品,或者说要可以打造成什么产品,这个产品能服务于哪些客户。这不仅仅是单纯的科研问题,而是一个很漫长的生态链的搭建过程。




问:

您目前做的研究会在未来发什么作用呢?未来会发生怎样的演化?



答:

我们所做的研究已经可以帮助一企业做决策和资讯,例如做获客模型、风险分析。

至于在未来会发生怎样的演化,我想回答这个问题可能需要一个大的实验室,一个非常大的平台。在我看来应有两个方面需要关注,一方面从研究的力度上需要区分出个体样本的行为特征,然后通过个体行为的特征和机制来理解群体行为一些现象。另一方面从纵深的角度上,看一个人的行为决策背后的机理中有没有规律性的东西,这就必须从社会学,心理学的角度,把这些知识结合起来进行解释。此外也需要结合具体场景,人的行为一定是依赖场景的,不是一个绝对客观的量。



。    。。。。。          

   社交网络上的传播动力学  

 问:

您觉得社交媒体分析中,重要的指标应该是哪些?您觉得最重要的是哪方面?



答:

我当年参加牛津大学的面试也被问到了类似的问题。

我当时的回答是:没有一个重要或不重要的问题,也没有一个重要或不重要的指标。所有科学问题的分析,都依赖于我们分析的目的或者我们分析的对象,以及我们分析的场景。

假设你是一个政府的管理角色,比如社交媒体上你想了解百姓关心什么问题,那么你可能对讨论主题的分类很重视,因为每天有几千万人在媒体上发各种各样的帖子,这个时候就需要进行非常复杂的比较,把中间的主题提取出来。比如通过社交媒体追踪罪犯,罪犯在网上会留下一些痕迹,去发掘这些人的行为特征,抓取他们的行为信号。甚至如果你想要用最低的成本去做广告,就需要了解什么时间什么地点投放广告比较好,就需要从信息传播的角度评估一个节点的重要性。

不同应用要关注的点其实不尽相同,所以应结合场景来重新定义。




 问:

从您的角度看,哪些特征会使一个账号成为社交网络中的关键节点(KOL)?



答:

我认为可以分内在和外在的两方面因素。

内在方面是这个账号发布的内容要有高度和深度。高度和深度不一定是很正式的,只要在一个细分领域做得专和精就可以了,把“八卦”做好也是一种高质量。

外在方面则是这个账号的营销推广。比如说寻找身边的朋友帮助推广以提高影响力。或者通过主流的媒体去扩散。

总结起来,一方面要靠内容的“质量”,另外是营销推广。




 问:

您觉得在社交媒体数据分析这一领域,下一步发展应该是怎样的?



答:

我认为社交媒体方面的研究会与相关场景或具体的应用紧密地结合。

拥有社交媒体数据的公司我很看好,包括一些游戏平台、新浪微博、微信、Facebook、Twitter 等等他们可以作为对社会的各方面进行分析的平台,适用于任何场景,包括军事用途、商业用途等。当然这也需要结合一些外界的力量,能把多维度的数据都整合起来是一件很困难的事情,但一定会有人去打破这些界限。对于一个数据公司如果他们的数据共享所获得的利润大于保护数据所获得的利润的时候它就会考虑把数据共享,所以大概率还是利益在推动。





。    。。。。。          

   相关性&因果性   

 问:

您觉得现在社交媒体数据分析中更多的是相关性的分析,您觉得目前有在因果性上有突破的研究工作吗?



答:

目前还没有看到,不过我认为因果关系本来就是存在的。有些研究顺着原因往结果的方向去推理,如果没有推导出结果的话,原因可能是想象力不足,相关性条件找的不够,相关度的数据采集不正确或者模型建立不正确。

我很重视从实验室到产品再到用户这样的研发流程的原因就在于一定要掌握结构关系,了解用户。只关注相关性会导致重要决策失误无人负责,把一项技术产品化那就一定要做因果性分析,做决策时也需要考虑因果性。




 问:

您觉得现在基于相关性的数据分析框架下,得出的结论靠谱吗?



答:

还是要看具体的场景。就像中医看病一样,都是在试验,先发现相关性再去试验。把错误的都排除掉,留下的可能就是合适的了。



 问:

请问您相信中医吗?



答:

中医是有它的道理的,它是从系统的角度建立一套分析体系,但是现在中医需要发展,需要通过现代科学的方式去对中医里面的因果或相关关系进行验证或扩展



。    。。。。。          

  开放问答  

 问:

对您影响最大的一本书是?为什么?



答:

我在十几年前看过一本书叫作《谁在我家》,作者是德国牧师海灵格。

这本书是用于心理治疗的,但是我觉得这本书提出的理论很有意义,而且和我目前的研究是密切相关的。

这本书独立地提出了一套进行心理治疗的方法和理论:把人与人之间的关系当作一个系统。在系统里面每个家庭是一个子系统,作者认为家庭里的很多矛盾或者问题,包括孩子得抑郁症、狂躁症,是和人与人之间剧烈的矛盾冲突有密切联系的,是有因果关系的,而且这种因果关系可以拓展到数代人以上。就是你完全不知道这个前辈的存在,但是这个亲人经历过的一件事情会对他的后代持续影响很多年。作者提出了一套理论并通过这套理论审视人与人之间的关系,以及人在这些关系中所表现出的各种各样的问题,并针对这些问题给出一些治疗方法。

这跟我的研究也相关,因为我是做系统工程的,也是致力于针对系统中的各种关系以及如何把它们整合起来。但是我们的研究是纯理论,而这本书是把这个理论应用到一个场景里,而且使用之后效果还很好。





 问:

您相信我们人类未来会变成赛博格人吗?



答:

我比较悲观。人之所以成为人,不只是因为人有大脑,人有智商,更重要的是因为人是一个社会性的动物,要处理各种复杂的事件关系。如果你通过赛博格技术给自己植入一个芯片,那就不是一个单纯的一个人了。

单从个体角度讲你可以把你的记忆增强,编辑基因抵抗艾滋病,这在技术上是可以实现的,但这不是一个简单的技术问题,发明一项技术比如说记忆增强和消除疾病,全世界的人都做这种操作,那人类就没有这种疾病了,这只是一个书生的“理想状态”。有这种想法的人不了解人性,人性是贪婪的、自私的,必须通过道德来约束的。

出现这些新技术一般不会最先用于普惠大众,掌握技术的人可能会利用技术去掌握更多资源,伴随衍生出竞争对手,是个更野蛮的生态,最后博弈的结果可能会是像核军备竞赛那样。好的技术最后没有普惠大众,不是因为技术不好,而是因为人性。根本上,技术的进步可能会让社会变得更加的割裂。



 问:

请问互联网会不会在价值创造方面有进一步的进化呢?



答:

我很同意这个想法。金融市场里会演化出很多不属于第一、第二产业之外的形态。对于普通用户来讲,我们在互联网上就是从事第一产业的普通“农民”,在生产各种各样的数据,大公司就是拿这些数据进行预测,风险分析以及风险控制,如何把这些模型、方法转化成产品再去应用就是“第二产业”了,再把这些产品做成系统就是“第三产业”了。

当时我们在英国的时候就提出通过一些通讯工具来构造一个地球模拟器,把地球上的各种活动都模拟出来,但最后遇到了困难。后来我去美国与 Stanford 大学的一位教授一起探讨金融市场模拟的话题,他提出要模拟金融市场并不是简单的 ABM,一定要去模拟整个场景,不仅要模拟人,还要模拟大气环流,模拟天气,模拟自然灾害,这些基本的东西都考虑进来,才能建立一套比较客观而且能预测金融市场的系统。

科学研究要强调逻辑的完备性。构造虚拟环境这样的系统并证明这个系统是符合客观实际所要涉及的因素很多。比如从单一的小维度去模拟人的逃生行为,这时建筑物、自然灾害这些场景加入模型中就成为常数了,台风怎样生成的?如何产生影响?台风的路径是什么?这些都要模拟出来。这只是单一事件的模拟,复杂程度非常高的就很难了。难点之一是体量太大,需要收集很多的数据,并建立一个非常大的模拟器。

另外如何去证明这个模型是对的?如果真的预测对了,那原因为什么不可以认为只是运气好呢?所以我们是无法证明这里是有真正的有因果关系的。

做科研是靠兴趣,但是落地要靠经济规律,靠投入、产出、成本、效率。所以这个系统如果要投入使用,可能还需要很长的路要走。



 问:

在您眼里未来会是一个两极分化的社会吗?



答:

可能是一个多极分化的社会。问题的根本不在于技术,而在于文化。先做抛开文化和教育来谈技术是没有什么用的。人性使然,人性的是个体的,涉及到群体就是文化了。





 问:

您在面临选择的时候所遵循的原则是什么呢?



答:

兴趣。

如果让我选择,我肯定侧重于遵从我的兴趣,我第一直觉对什么感兴趣很重要,兴趣是最大的驱动力。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存