2023计算机前沿技术研究生创新示范课程精彩回顾IV
10月21日,计算机前沿技术研究生创新示范课程之“多媒体技术”如期而至,中国科学院自动化所的徐常胜研究员与浙江大学的吴飞教授分别带来题为“连接社会多媒体大数据”和“大模型基座赋能: 由通到专的实践和思考”的两节精彩内容。
学有所思、学有所悟、学有所得。让我们通过两位同学的Lecture Review再次走入课堂,近距离感受前沿科技的力量。
Lecture 7 徐常胜研究员
连接社会多媒体大数据
学生
陈佳乐
你是否好奇为什么各种社交平台都能准确地抓住你的兴趣,为你推荐你喜欢的内容?这是由于社交平台采用了一系列个性化推荐算法和技术。10月21日,中国科学院自动化所徐常胜老师在致腾楼报告厅为2023级全体计软新生带来了主题为“Connecting Isolated Social Multimedia Big Data”的精彩报告。这次报告全面系统地介绍了社会媒体网络(Online Social Networking, OSN)的相关知识,并通过典型案例深入浅出地解析了如何在社交多媒体大数据中进行关联挖掘和用户建模,为之前不了解这个领域的同学打开了新世界的大门。
徐老师首先以传统社交媒体介绍为切入点,引出了社交多媒体的概念。他梳理了互联网服务的发展历程,从Web 1.0到Web 2.0,指出社交多媒体已经成为社交媒体的主流形式。他精准地定义了社交多媒体是社交媒体和多媒体内容的深度融合,并通过对比阐述了社交多媒体是以用户为中心,而多媒体本身则更以内容为方向。随后,他提出在大数据环境下,社交多媒体数据与大数据技术的碰撞与融合是必然的趋势。为此,徐老师介绍了一种以用户为核心的解决方案——跨社交网络分析(Cross-OSN),旨在整合用户在不同社交平台上的分布式数据,对用户进行多维度建模。他指出跨社交网络分析面临的数据融合与用户建模两大核心难题。通过案例,他介绍了从用户生成内容中获取多媒体信息的方式,以及通过多媒体内容反推用户属性的思路。他还提到,构建用户跨平台数据集有多种途径,当前以用户自愿提供信息的方式最为常见。最后,他详细展示了具体的技术框架、算法流程,并给出了验证实验结果。同时以一名视频网站的新用户所被推荐的视频为例,说明通过该用户在其他社交平台的行为可以分析出所推荐的视频。
讲座提问环节中,同学们提出了许多优质问题,徐老师也给出了耐心而详尽的解答,会场气氛热烈。这次讲座不仅加深了同学们对社会媒体网络的理解,也开拓了研究视野,让人受益匪浅。
正如徐老师所说,如今我们生活在大数据的时代。各种推荐算法在我们的日常生活中无处不在,徐老师的讲座帮助我们理解了推荐系统背后的底层原理,并为科研提供了有价值的参考和借鉴内容。
路漫漫其修远兮,吾将上下而求索。作为研究新生,在科研的旅途中,我们要始终怀揣着一颗求知的心,不断突破自我,不断超越现有的边界。我相信,只有通过不断精进自己,才能在这广阔的科学海洋中寻找到宝贵的发现和创新。
Lecture 8 吴飞教授
大模型基座赋能: 由通到专的实践和思考
学生
许琪乐
大语言模型的出现,给人工智能领域带来了强烈的冲击,同时也带来了许多机遇,在计算机前沿技术课程的第八节课中,来自浙江大学的吴飞教授为计软学院全体研究生新生带来了主题为“大模型基座赋能:由通到专的实践和思考”的报告。
吴教授用通俗易懂的语言介绍了大模型训练中的经典训练算法,结合例子说明了高质量数据的重要性,突出了模型为大、语言点金的特点,然后介绍了面向不同领域的智海模型,体现了由通到专的具体实践,极大地拓展了我们的视野。
吴教授从人工智能的起源引入,认为大语言模型将以自然语言交互形式成为人类社会-信息空间-物理世界的流量入口,随后讲到了人工智能领域的学术研究热点Transformer,该模型是大语言模型的基石,并且提出了训练大语言模型的三板斧。首先是完形填空下的自监督学习(self-supervised in-context learning),在训练时,可以通过遮盖文本中的某些单词或短语,并要求模型根据上下文信息进行填空,即预测被遮盖部分上的“填空词”出现的概率,这样的自监督学习任务可以帮助模型学习到丰富的语言知识和语义表示,从而可以在各种下游任务中展现出强大的表现力;其次是提示学习和指令微调(prompt learning and instruction tuning),提示学习的目标是通过设计和优化提示,使模型能够更准确地理解需求并生成相应的输出,而指令微调则是对已经训练好的模型进行微调,以使其更好地遵循特定的指令或约束,吴教授指出,通过提示学习和指令微调,可以让大模型学习到情感分类识别和概念对比分析,从而让人工智能模型说人话、做人事;第三板斧则是人类反馈下强化学习(human-in-the-loop),通过将人类专家的知识和判断力纳入大型语言模型的生成过程中,从而提高模型的质量、准确性和可控性。吴教授还总结了训练大语言模型的通用之力:数据是燃料、模型是引擎、算力是加速器。
除此之外,吴教授通过介绍其团队的面向智能教育的智海-三乐、智能司法的智海-录问、文学领域的智海-敦煌等垂直领域大模型,说明了高质量的语料数据在训练垂直领域大模型时的重要性。
吴飞教授的精彩报告内容丰富难以简要概括,令我获益良多。在报告的最后,吴飞教授还激励大家在学术道路上不惧困难,不断前进,正如胡适先生所言:“怕什么真理无穷?进一寸有一寸的欢喜。”
精品课程
扫码访问课程主页
学院官网开辟了“精品课程”栏目,第一时间发布课程资讯、学习动态和优秀学生作品。
欢迎全院老师积极联系加入,在官网分享传递自己的课程主页。
https://csse.szu.edu.cn/pages/courses