查看原文
其他

当大模型遇见因果推断!

DataFunSummit
2024-09-11

最新的AB实验方法论?
前沿的RAG应用实践?
基于大模型的因果推断?


金融、汽车、物流、电商、游戏领域的领先落地经验?


尽在5月25日,由DataFun出品的数据科学峰会,我们将邀请8位专家和出品人共同策划,邀请来自国内外一线的专家学者分享数据科学的最新实践探索,感兴趣的小伙伴欢迎扫码报名,收看直播:

识别二维码,免费报名

峰会日程:


部分议题展示:


李奕霖 腾讯 数据科学家

个人介绍:北京大学数学学院统计学博士在读,致力于因果推断的研究,特别是存在干涉的因果推断和观察性数据分析。现任职于微信实验平台,主要研究方向为网络实验设计与分析,研究内容在Biometrics、ACM/IMS Journal of data science、ICML等期刊和会议发表。

演讲题目:基于成对数据的A/B实验

演讲提纲:成对数据是一种独特的数据类型,用于刻画两个个体间的交互行为和关系。研究人员可以利用成对数据更为深入研究个体之间的复杂关系和动态。例如,在国际关系研究中,成对数据可以包含国家间的贸易额等;而在社交网络分析中,成对数据则可以刻画个体间的交流行为。随着大数据时代的到来,成对数据分析逐渐引起了各个领域应用科学家的兴趣,然而关于成对数据的因果推断方法却鲜有研究。因果推断的核心假设之一是个体稳定处理值假设 (SUTVA),其中对于每个个体的潜在结果不依赖于其他个体的处理。然而,在社交网络场景下,由于存在网络干涉,这一假设往往并不成立,这也导致估计全局平均因果作用可能会出现不可忽略的偏差。我们考虑将成对结果引入随机实验中,其中受试者被随机分配到治疗组或对照组。此类场景在在线随机控制实验(A/B 测试)中广泛存在,例如转发消息或分享链接等数据。基于这类场景,我们引入了一种新颖的成对干涉假定。在存在异质性时,我们证明了基于常规单位水平结果的全局平均治疗效果的无偏估计一般并不存在。为此,我们利用成对数据的特点设计了了全局平均因果作用的无偏估计,并证明了在不同随机化设计(例如伯努利随机化、完全随机化和聚类随机化)下均不存在偏差。我们对所提出的估计量及其相应的理论特性进行了深入而全面的分析,例如收敛速度与网络结构之间的联系,以及利用Stein方法分析的估计量的渐近正态性。我们讨论了伯努利随机化下估计量的置信区间的构造方法,并给出了相应的统计推断方法。我们还通过各种数值实验来说明上述现象,验证了估计量对全局因果作用估计的准确性,同时将这一方法应用于大规模在线随机对照实验中。

听众收益:

1. 网络实验中,估计全局因果作用的方法有哪些?

2. 什么是成对数据分析?

3. 如何利用成对数据进行A/B实验与因果推断?相关的理论是什么?存在哪些问题?

李奕萱 联通数科 数据科学家

个人介绍:联通数字科技有限公司 模型开发专家。负责数字政府、文旅交通等行业的模型应用构建。专注于探索大数据、人工智能等方向的新技术,并在行业应用落地,主要研究成果已在多篇期刊和会议发表。

演讲题目:RAG技术应用实践

演讲提纲:RAG(Retrieval-Augmented Generation)技术,是一种结合检索和生成功能的自然语言处理技术。它通过从大型外部知识库中检索与输入问题相关的信息,来辅助生成式模型回答问题。RAG技术广泛应用于问答、对话系统、文本摘要等多种自然语言处理任务中。它的优势在于能够提高内容的准确性和相关性,有效地缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。本次演讲将分享RAG技术的优势、我们如何基于联通自有数据进行知识增强应用的构建,以及在应用RAG技术过程中遇到的挑战和解决方案。

听众收益:

1. 什么是RAG技术?

2. RAG技术的优势是什么?

3. RAG技术过程中遇到的挑战和解决方案。

董晓静

 Leavey School of Business, Santa Clara University, Assistant Professor of Marketing

演讲题目通过实时数据揭示消费者偏好

对消费者偏好进行推断在个性化、定向推荐领域起着至关重要的作用,常规操作是利用消费者的历史数据的获取其偏好,但这一资源由于不断增加的隐私法规而变得稀缺。 在这项研究中,我们引入了一种贝叶斯动态方法,通过利用消费者的搜索过滤选择来解码消费者偏好,例如调整价格范围以优化搜索结果。 这种创新方法使我们能够利用实时搜索行为数据了解消费者偏好。 这就可以让公司再遵守隐私法规的限制的同时,也能及时获取用户偏好、并实现及时的推荐。 我们开发了一个贝叶斯模型,捕捉实时信息以评估流动环境中个体级别的价格质量权衡。 通过针对价格质量权衡量身定制的效用模型,我们的模型提供了一个闭环的解决方案,帮助企业看清楚各种不同影响消费者购买决策的因素是如何收敛并最终作用在购买结果上的。 我们通过模拟和来自知名旅行社的实际数据验证了模型的有效性,采用了马尔可夫链蒙特卡洛技术。 这种新颖方法的模拟和实际应用都突显了其卓越的预测能力,表明企业可以通过分析消费者的实时在线行为敏锐地洞察消费者倾向。

识别二维码,免费报名

韩云飞 火山引擎 A/B 测试研发负责人

个人介绍:负责字节跳动通用实验平台团队,致力于打造业界最先进好用的实验平台,把A/B测试变成驱动业务增长的新基建。从0到1参与搭建了字节跳动内实验中台Libra,服务于内部多条业务线;对外发布火山引擎DataTester等产品。

演讲题目:用户增长的真相

演讲介绍:在当今竞争激烈的市场环境下,企业都在竭尽全力地追求用户增长。然而,要实现可持续的增长,我们必须深入理解用户,找到有效的方法为他们带来价值。在这个过程中,数据发挥着至关重要的作用。本次分享将围绕着“用户增长的真相就是不断对抗熵增”这一理念,探讨如何利用数据分析、实验评估和探索分析等手段,实现用户增长的目标。具体内容包括:

1. 用户增长的真相

2. 理解用户需求

3. 寻找有效策略

4. 为用户创造价值

5. 利用数据获得洞察

6. 结论

听众收益:

1. 揭示用户增长的核心本质:深入探讨用户增长的真相,帮助听众理解如何对抗熵增,实现可持续增长。

2. 数据驱动的策略制定:分享如何利用数据分析找到有效的增长策略,通过实验评估确保策略的有效性。

3. 提升用户价值:强调为用户创造价值的重要性,介绍如何利用数据进行产品迭代,提升用户体验。


程伟 NEC Labs America 高级研究员

个人介绍:Wei Cheng 是 NEC 美国实验室的高级研究员。他于2015年在美国加州大学教堂山分校计算机科学系获得博士学位,导师为王伟教授。他的研究兴趣包括数据科学、机器学习和生物信息学。他已申请专利100多项,在NeurIPS、ICML、SIGKDD、ICLR、WWW、EMNLP、ISMB等顶级会议和Nature、Science、TPAMI、TNNLS、TKDE、Bioinformatics等期刊上发表研究论文100多篇。他的研究成果曾获得 2016 年 SIGKDD 最佳研究论文亚军奖,并获得 2018 年 ICDM、2017 年 ICDM、2015 年 ICDM 和 2012 年 SDM 最佳论文奖提名。他还担任过多个顶级会议的领域主席,包括 ACL、SIGKDD、EMNLP、NAACL、IJCAI、SDM、AAAI、WSDM 等。

演讲题目:检测 LLM 创建的内容

演讲提纲:在这个数字化快速发展的时代,LLM如ChatGPT和Claude等已成为我们获取、生成和理解信息的重要工具。它们不仅能够创建高质量的文本内容,还能在各个领域中提供支持和优化解决方案。在接下来的时间里,我们将探讨LLM内容创造的现状、为什么需要对这些内容进行检测、以及可以采用的不同方法和技术。我们还将分享成功案例研究,探讨当前面临的挑战,并展望未来技术的发展方向。我们希望通过今天的讨论,提高大家对于大型语言模型在内容创造中作用与挑战的认识,并共同探索有效的内容检测策略,以确保信息的真实性和安全性。主要内容包括:

I. 引言

A. 介绍大型语言模型(LLM)及其在内容创作中的作用

B. 强调检测LLM创建内容的重要性

C. 演讲目的概览

II. LLM内容创作的现状

A. LLM在各行业的应用实例

B. 创作内容的质量与可信度

C. 存在的挑战与风险

III. LLM内容检测的必要性

A. 确保内容的真实性与准确性

B. 避免误导性信息的传播

C. 维护内容创造道德和标准

IV. 检测方法与技术

A. 基于文本分析的方法

B. 机器学习与人工智能技术

C. 高级检测技术的发展趋势

V. 未来展望

A. 检测技术的发展方向

B. LLM内容创造与检测的融合前景

C. 参与者的责任与角色

Ⅵ. 问答环节

A. 解答观众问题

B. 探讨演讲话题的深入内容

听众收益:

1. 了解可检测LLM生成内容的重要性

2. 当前可以采用的不同方法和技术

3. 展望未来技术的发展方向

陈思蕤 同济大学 博士研究生

个人介绍:同济大学软件学院博士研究生,研究方向为因果推理,大语言模型。

演讲题目:大语言模型因果推理评测体系的构建

演讲介绍:因果推理是人类认知能力最重要的特征之一,提升因果推理能力被视为由机器智能迈向人类智能水平的关键步骤。为对大模型进行科学有效的因果推理能力评估,我们研究团队发布了首个大模型因果推理开放评测体系及开放平台CaLM(Causal Evaluation of Language Models,以下简称“CaLM”)。CaLM中提出了包含因果评估目标(Causal Target)、评估方式(Adaptation)、评估标准(Metric)及错误分析(Error)的评估框架,同时构建了超过12万道题目的中英文数据集。基于CaLM,我们团队首次对28个当前主流大模型进行了因果推理能力评测,共产生了50项实证性发现,相关论文共315页。

演讲提纲:

1. 背景介绍

2. CaLM框架介绍

3. 实验结果

4. 存在的局限性

5. 总结

6. 主页展示

听众收益:

1. 如何确定大语言模型是否具有因果推理的能力?

2. 如何衡量大语言模型的因果推理熟练程度?

3. 如何提高大语言模型的因果推理能力?

陈美琪 北京大学 博士研究生

个人介绍:陈美琪,北京大学博士研究生,导师为张岩教授。主要的研究方向为大模型、因果推理、知识图谱。在ACL、COLING、ICASSP等国际会议上发表了多篇论文,受邀担任ACL、EMNLP、NAACL等AI/NLP领域顶会审稿人。

演讲题目:从因果视角量化和评估多模态大模型中的单模态偏见

演讲提纲:近期关于大语言模型(LLMs)的研究进展促进了多模态大模型(MLLMs)的发展。尽管它们具有令人印象深刻的能力,我们发现多模态大模型往往过度依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中出现错误答案。为了研究这一问题,我们提出了一个因果框架来解释视觉问答(VQA)问题中的偏见。在这个框架内,我们进行了深入的因果分析,以评估这些偏见对多模态大模型预测的因果效应。基于此分析,我们引入了一个名为 MORE 的新数据集,包含 12,000 个需要多跳推理并克服单模态偏见的具有挑战性的 VQA 实例。我们的实验显示,多模态大模型在 MORE 数据集上的表现不佳,表明存在强烈的单模态偏见和有限的语义理解。我们提出了两种解决方案,以减轻这些偏见并提高多模态大模型的推理能力。

听众收益:

1. 多模态大模型中的单模态偏见问题

2. 如何应用因果推理分析单模态偏见

3. 如何缓解单模态偏见问题

张雅淋 蚂蚁集团 算法专家

个人介绍:张雅淋,硕士毕业于南京大学,现蚂蚁集团平台技术事业群算法专家。研究方向聚焦于弱监督机器学习、因果机器学习以及自动机器学习等领域,在ICML、NeurIPS、ICDE、CIKM等国际会议发表论文20余篇;熟悉信贷风控与营销的业务场景,并借助相关技术解决业务中的痛点问题。

演讲题目:弱监督建模技术在蚂蚁风控场景中的探索与应用

演讲提纲:金融风控场景中往往存在诸多形态的弱监督问题,面临诸如建模数据不足、标签信息匮乏、标签信息存噪等潜在痛点,而这部分建模的探索及经验分享相对匮乏。如何更好地利用可以获取的数据以及标签信息,探索更高效和鲁棒的建模方法,是我们需要解决的问题。自金融风控场景的风险建模以及响应建模等场景出发,我们分别介绍我们对跨域因果和标签存噪建模问题的一些技术探索和应用实践。

听众收益:

1. 风控响应场景中因果建模问题的域适应与跨域建模方案介绍;

2. 风控场景下的噪声标签问题以及建模方案介绍;

3. 相关技术在蚂蚁业务场景的应用以及业务影响等;

识别二维码,免费报名

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存