DSA学术讲座&硕博宣讲|4月16日中国人民大学专场
数据科学与分析学域通过统一统计、机器学习、优化及其相关技术来推进数据科学和分析领域的发展。同时,本学域致力于扩展数据科学和分析的应用以解决现实世界中的重大科研问题以造福社会。
学术讲座
1
展望基于自然语言的数据库查询技术
近年来,随着大语言模型(LLMs)技术的进步,基于自然语言的数据库查询(NL2SQL)技术受到了广泛的关注。尽管NL2SQL模型的效果取得了较大的进展,但其在真实场景的应用中仍存在自适应能力弱和评测粒度粗等问题。本次报告旨在从NL2SQL系统的应用角度出发,探讨如何促进用户、模型和数据之间的有效协同,以推动NL2SQL技术的进一步发展,具体包括:1)自适应查询重写:如何根据NL2SQL模型的反馈自适应地重述自然语言查询,以减少用户输入的歧义并丰富语义信息?2)多维度模型评测:现有NL2SQL模型应如何进行更全面的评估和验证,以确保其在不同应用场景下的有效性和准确性?3)NL2SQL检查器:如何有效判断生成的SQL语句是否真实准确地反映了输入的自然语言(NL)的查询意图?4)用户理解和信任:如何设计机制使用户更好地理解和信任模型生成的SQL语句及查询结果?
骆昱宇,博士,现任香港科技大学(广州)数据科学与分析学域助理教授、博士生导师。他的主要研究方向为大数据智能管理、大模型驱动的数据分析,在CCFA类会议和期刊(如SIGMOD、IEEEVIS、VLDB、ICDE、TKDE、TVCG)发表论文20余篇,相关科研成果应用于华为、国家电网等企业。他曾获2023年CCF博士学位论文激励计划提名奖、2023年福布斯中国30Under30精英榜、2023年CSIG全球可视化青年新星、清华大学优秀博士学位论文、清华大学特等奖学金、DASFAA2019 最佳学生论文奖等荣誉。
2
基于检索增强的
高可靠大语言模型推理
摘要:大语言模型(LLMs)已经彻底改变了自然语言处理领域,提供了前所未有的生成类似人类文本的能力。然而,LLMs面临的一个关键挑战是确保其输出的准确性,这对于需要精确结果的数据分析任务至关重要。为了解决这个问题,检索增强生成(RAG)被提出作为一个有前景的解决方案。RAG模型结合了LLMs的生成能力和信息检索的精确性,使模型在生成过程中能够访问并整合相关的外部知识。在本次演讲中,我将探讨与RAG模型相关的常见挑战,例如检索最新信息和访问结构化数据(如表格)。我还将讨论目前用于提高RAG模型准确性和可靠性的最流行方法。通过利用这些技术,我们可以显著提高LLMs在数据分析中的表现,使其更适合需要高精度的应用。
汤南博士现任香港科技大学(广州)副教授。于2007年12月取得香港中文大学系统工程与工程管理专业博士学位。2008-2009年期间,汤南博士任职研究院于荷兰国家数学与计算机研究所,主要研究方向是列存储数据库对半结构化数据的高效支持。2010-2011,汤南博士任职研究院于爱丁堡大学,主要研究方向为数据清洗。2011年12月至2023年6月,汤南博士加入卡塔尔计算机研究所担任资深科学家,作为卡塔尔国家计算机研究所的创始成员,在过去十年的时间里带领卡塔尔国家计算机研究所成为数据管理领域世界闻名的研究中心。汤南教授在数据库和数据挖掘顶级会议和期刊上发表论文120余篇,在众多国际顶级会议和期刊担任审稿人,区域主席 (ICDE 2024, VLDB 2025),并多次获得国际会议的重要奖项 (SIGMOD 2023 Research Highlight Awards, Best Papers of SIGMOD 2023, VLDB 2021 Distinguished Reviewer Award, ACM SIGMOD 2020 Reproducibility Award, Best Papers of ICDE 2018 & 2012 & 2009, Best Papers of VLDB 2015, The Best Paper Award of VLDB 2010.
香港科技大学(广州)数据科学与分析学域希望通过本次学术讲座,搭建与人大学子交流与沟通的桥梁,增进同学们对香港科技大学(广州)的了解,也将详细介绍数据科学与分析领域的研究热点与前沿科技。参与本次讲座的同学将与学域教授面对面,鼓励优秀学子积极展现自我,也欢迎携带简历前往交流咨询。
邀请对象
欢迎计算机,信息,通信,数学,物理,医学,生命科学等专业本科生及硕士研究生报名参与。
硕博项目介绍及咨询
博士项目
(点击了解更多信息)
咨询邮箱:dsarpg@hkust-gz.edu.cn
硕士项目
(点击了解更多信息)
咨询邮箱:mscdcai@hkust-gz.edu.cn