【典学论坛】第九期|信息网络机器学习在智能社会治理中的应用和探索
10月2日晚20时,典学论坛第九期正式和大家见面,本次论坛以线上直播的形式,通过腾讯会议、智云学堂(钉钉)、B站三个平台同步开展,线上450余人观看直播。
浙江大学公共管理学院副教授付慧真老师主持了论坛,她介绍了本次报告的主讲人是浙江大学“百人计划”研究员、博士生导师蒋卓人老师。研究方向包括计算社会科学、文本挖掘、自然语言处理、信息检索。
在主讲报告环节,蒋卓人老师进行了《信息网络机器学习在智能社会治理中的应用和探索》 的报告交流。蒋卓人老师的报告主要分为三个部分,分别是信息网络机器学习简介、在智能教育方面的应用、在数字经济和数字社会的应用。
为了促进学术交流,征得蒋卓人老师同意,现将蒋卓人老师报告中关键PPT内容发布,以便共同思考智能社会治理下一步理论突破方向、途径和手段。
第一部分
信息网络机器学习简介
我们生活在一个互相连接的世界并且产生了海量的连接数据。图数据(graph data)一直是信息科学领域里最重要的数据结构。不管是电影明星、社交网络、蛋白质互相作用的关系,都可以被建模成信息网络。信息网络(图)是描述和建模复杂系统的一种通用语言。图是相连的实体的集合,两个实体(结点)之间的链接(边)代表了两个实体间的交互。在机器学习里,信息网络和图是等价的概念,具体实例包括:社交网络、物理设备相连的网络、互联网设备图、电网、知识图谱、分子的结构图等。
信息网络研究有以下意义:(1)描述复杂数据的通用语言,来自科学、自然和技术的信息都可以建模为网络结构;(2)各个领域之间共享研究对象,包括计算机科学、社会科学、物理学、经济学、统计学、生物学;(3)数据的可用性(+计算的挑战),包括网络/移动、生物、文本、健康和医疗;(4)有影响力,包括社会网络、社会媒体、政策文本、药物设计。
目前全球首个图神经网络为主的AI创业公司Kumo已经诞生,该公司是由斯坦福大学的Leskovec 团队与德国多特蒙德大学联合进行的五年学术研究的成果。这家专注于图神经网络的公司证明图机器学习的应用是可以真正落地产生商业价值的。
信息网络上的机器学习的典型任务可以分为四类:包含(1)节点分类,预测一个给定节点的类型;(2)链接预测,预测两个节点是否有联系;(3)社区检测,识别链接密集的节点集群;(4)网络分类,预测一个给定网络的类型。经典机器学习的生命周期中有一个环节叫做“特征工程”,传统上,入度、出度、中介性、中心性、重要性等都是重要的图机器学习特征。图神经网络可以将“特征工程”自动化,是一种针对图结构数据的深度学习架构,可以将节点自动映射到低维嵌入特征空间。
信息网络上的机器学习不容易,经典的深度学习工具是为简单的序列或网格设计的,但网络要复杂得多,复杂的拓扑结构没有固定的节点排序或参考点,通常是动态的并且具有多模态的特征。
2017年10月党的十九大报告指出加快社会治理制度建设,明确以智能化作为重要手段和模式提高社会治理现代化水平,加快促进社会治理“四化”水平提升,形成经济社会发展新模式,新动能,打造共建共治共享的社会治理格局。人工智能技术也广泛地应用在社会治理之中,智能的社会治理,就是要运用人工智能的方法对人类社会进行治理,包括数字社会、数字经济、数字教育等。随着数字孪生、人工智能、 虚拟现实等技术不断发展成熟,我们已经具备了智能社会治理的客观条件。
第二部分
在智能教育方面的应用
一位学生在老师建议她在图书馆找一些统计方法的书籍时反映自己看不懂。信息需求并不仅仅是访问信息,更需要理解信息。目前学科交叉应用广泛,许多学生反映在阅读文献或书籍时遇到不明白的公式概念需要其他资料信息辅助,例如维基百科、ppt介绍、视频资源等。我们通过定位开放教育资源,为每一个关键词收集资源,为每一篇科技论文和文本信息需求排序资源,其中包含维基百科词条、源代码、教程、演示文稿、视频和数据集。
由于不同搜索引擎会针对相同或者类似查询返回形形色色、不规则的多种结果,而不相关的数据可能会污染元数据以及误导用户。完全自动化的方法总是会带来一些噪声结果,这时我们考虑到高质量数据往往和其他高质量数据相关联。可以引入图的概念,构建异构图融合学术信息和开放教育资源,通过基于元路径(meat-path)的随机游走,在给定一篇论文、主题或者查询的时候找到高质量的开放教育资源。我们还创建了一个协作阅读环境,学生在阅读论文时可以对不理解的内容点击寻求帮助、提问、添加评论等。
我们通过实验为开放教育资源推荐建立ACM文本索引和图形索引,包含41,378份出版物和9,236个主题。美国印第安纳大学的一门研究生的信息检索课程被用于本实验,实验证明了这种基于异构图挖掘的开放教育资源推荐的方式可以有效辅助学生理解复杂的科技学术信息。
(1)个性化的信息理解辅助
(2)针对数学内容的信息理解辅助
通过构建公式演化图,并进一步和开放教育资源在异构图上进行融合,我们对用户的数学信息需求进行建模,我们设计和实现了数学内容的信息理解研究,在美国印第安纳大学的两门研究生课程中的用户实验证明了我们方法的有效性。课后的问卷调查显示,面对阅读中的碰到公式时并不知道该问什么样的具体问题。根据学生的反馈,72.73%的参与者认为新系统和公式理解方法可以提供精确和有用的信息,43.75%的人认为所提出的方法可以帮助他们。总的来说,63.63%的参与者表示该系统和公式理解方法能够帮助或非常帮助他们更好地理解目标论文。
(3)基于时间动态的信息理解辅助
我们根据文本内容动态变化建立动态学术信息异构网络图,结合有监督学习的动态主题建模,在时序文献推荐任务中训练排序学习模型,该模型不仅可以在不同时间片上根据用户的信息需求进行建模,有效推荐动态的学术信息,而且可以学习不同时间片上的推荐特征演化。
(4)跨语言的信息理解辅助
我们构建跨语言的学术信息异构图,设计异构图表示学习框架,利用异构图上的层次化表示学习,完成跨语言的学术论文推荐。在跨语言的中英文学术论文数据集上我们验证了该模型的有效性。
总结而言,我们利用图这种数据结构,完成学术文献信息和开放教育资源的融合,数学知识的演化,不同时间阶段教育资源信息的融合和跨语言的学术信息融合,并通过机器学习算法在教育场景中进行了一系列的学术信息辅助理解的研究。
第三部分
在数字经济和数字社会的应用
(1)我们利用图机器学习把知识嵌入到人工智能模型中。应用的领域是数字社会中的内容安全问题:黄赌毒恐等高危信息潜藏在网络的各个角落,算法挖掘发现面临很大难度;文本变异识别,黑产通过汉字的音变、形变,不断地创造新的罕见汉字搭配,从而在给接收者取巧地传达真实意图的同时,绕过现有模型技术。造成恶意转化、宣泄情绪等负面影响。我们利用构建汉字音变形变图把汉字的知识注入到深度学习模型中,通过短信和评论的数据集,让模型学习到的表示具有捕捉汉字音变形变的能力。
(2)我们利用图机器学习将知识进行跨领域的传递和迁移。应用的场域是数字经济中的电子商务评论情感分析问题:把需要使用跨领域的情感标注信息传递,即面对一个训练数据有限的(目标)领域,我们可以用相关(源)领域的补充数据来加强训练过程,从而提高模型的性能。利用丰富的用户行为信息(如浏览和购买信息)构建图,成为跨领域的知识传递的桥梁。我们收集了淘宝真实业务场景中的数据,进行了四组迁移识别的实验,识别效果显著提升。此外还有跨领域用户社群识别研究等,也可以通过图的方式来完成不同领域的知识传递。
(4)我们还可以利用图去协助找到最能提高机器学习性能的标注数据(主动学习、人机交互),这个算法对于标注成本和标注难度相对较高的社会科学领域很有价值。利用图结构对文章中的关系信息进行抽取构建知识图谱的基础性工作等。
在讲座的最后,蒋卓人老师联系自己的研究历程总结道:在我们的人生当中,会亲手写下很多故事的开头,然后看着这个故事一点一点续写,故事的结局很多时候不一定是我们精心策划而来的。但走向结局的过程中,有时候也可以回头看看走过的路和出发的起点,这也是“不忘初心、方得始终”的内涵。
点评与总结
清华大学公共管理学院助理教授张芳老师在点评中指出,信息网络的技术为智能社会运行规律、治理规律的认知提供了非常精准科学的工具和方法。蒋卓人老师深入浅出地介绍了信息网络的概念。图知识的技术和方法在智能社会领域里应用非常普遍,例如政务舆情。从传统农业社会到工业社会、智能社会,都需要前沿性的方法作为支撑。智慧教育、商业管理领域等都需要更好的匹配信息和需求者之间的关系,帮助知识生成和更好的学习。信息推送场景的存在为生活所带来的便利和福利。文献查找,信息检索等信息的获取和推送使得社会的运转效率极大提升。随着精准推送的普及,给社会治理带来潜在的负面效应,例如信息茧房现象,需要提出相应的防范措施。蒋老师介绍了知识图谱、机器学习、实验研究、社会职能治理试验和动态化的图谱构建,呈现了公式之间的演化过程和内在逻辑,很大的突破了以前的错误认知,朝着多元异构信息融合的方向发展,在智能化社会治理的不同场景中都有广泛应用。
蒋卓人老师针对张芳老师提出的精准推送可能给社会治理带来的潜在负面效益回答,随着推荐的不断发展,推荐算法必须给出解释性的说明。可解释性的机器学习方法使得算法变面变成黑盒,推荐机制时要加入多元性考虑,进行权衡和博弈。
浙江大学公共管理学院教授黄萃老师在点评中指出,智能社会治理是一个跨学科复杂的问题,这个论坛邀请不同学科的老师一起交流社会治理。蒋老师的结尾特别触动,之前的研究和现在的呼应性很强,虽然很多故事的结局不受控制,但结局都很美好、意想不到。
2022年8月7日——12月31日
每周日晚8点
典学论坛
与您相约
共同探讨智能社会的未来
*注意:为了保护知识产权,论坛会议全程请勿录音、录像、截屏。会议嘉宾对其PPT内容和演讲词具有最终解释权。未经主讲人许可,严禁对外私自传播会议中出现的数据模型、文献引用等演讲内容。