查看原文
其他

Data+LLM:数据治理新范式探索

DataFunSummit
2024-09-11

目前数据治理的前沿话题有哪些?

基于大模型的数据治理应用范式?
数据资产入表的方法论与实践?
数据血缘核心技术路线?
Databricks和SnowFlake带🔥的元数据管理?

从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:

扫码免费报名,收看直播

峰会日程

精彩议题

部分议题详细介绍

兰晨 腾讯互娱 数据治理平台技术负责人

个人介绍:13年大数据研发与架构经验,曾构建腾讯游戏/TCL/招商银行等大型企业的经分系统,目前负责腾讯IEG数据治理平台,提供数据接入、元数据管理、数据应用一站式服务。

演讲题目:大模型在数据发现的应用探索

演讲提纲:

1. 腾讯游戏数据治理概要

2. 大模型技术对于大数据治理的启发

3. 大模型技术在数据发现的应用

听众收益:

1. 腾讯游戏数据治理面临的困难与挑战

2. 库表这么多,我这个数据需求应该用哪些?

3. 腾讯大模型混元如何助力数据发现?


王紫格 北京大学博士研究生、华为诺亚方舟实验室实习生

个人介绍:王紫格,北京大学计算机学院在读博士研究生,华为诺亚方舟实验室实习生,主要研究方向为大语言模型指令微调阶段的数据选择。

演讲题目:大语言模型训练中的数据管理

Data Management For Training Large Language Models: A Survey

演讲提纲:数据是大语言模型训练的关键之一,有效的数据管理,尤其是组建一个合适的训练数据集,对于大语言模型的预训练和有监督微调是十分重要的。尽管主流大语言模型已经积累了一些数据管理的成功经验,然而在实际应用中,如何选择合适的数据管理策略依然是一个较大的挑战。因此,越来越多的研究致力于探寻数据管理影响大语言模型性能的深层机制以及更优更高效的数据管理策略。本次演讲将分别介绍大语言模型预训练和有监督微调阶段的数据管理相关研究工作,并对数据管理未来可能的研究方向进行展望和设想。具体内容包括:

1. 概述,问题引入,并提出数据管理的概念;

2. 预训练阶段的数据管理,包括领域组合、数据数量和数据质量三个小节;

3. 有监督微调阶段的数据管理,包括任务组合、数据质量、数据数量和动态数据高效学习四个小节;

4. 挑战及未来可能的研究方向。

听众收益:

1. 组织一个合适的 LLM 训练数据集需要注意哪些方面?

2. 现有的研究工作都有哪些发现?

3. LLM 数据管理未来仍面临哪些挑战?


李天航 哔哩哔哩 大数据开发工程师

个人介绍:李天航,Bilibili 大数据开发工程师,Apache Gravitino contributor,专注于大数据场景下的元数据管理 & Spark 计算引擎优化。

演讲题目:统一元数据管理 - Gravitino 在 B 站的最佳实践

演讲提纲:

1. 当前元数据管理的现状

- 介绍当前元数据管理面临的主要问题和挑战

- 分析传统元数据管理架构的局限性

2. 引入 Gravitino 的背景

- 解释引入中心化元数据管理系统的重要性

- 分析与对比目前工业界主流的元数据管理组件

- 强调 Gravitino 在数据治理方面的重要意义及潜力

3. Gravitino 在B站元数据管理中的应用

- 具体介绍引入 Gravitino 的场景以及解决的痛点

- 分析 Gravitino 在数据治理过程中遇到的挑战及解决方案

4. Gravitino 在B站实践的成果

- 分享对于多数据源的统一元信息管理的提效成果

- 分享在 Kafka schema 信息管理的提效成果

- 分享基于对 Fileset 管理的数据治理降本成

5. 未来 Gravitino 在B站大数据基础架构中场景的探索和展望

- 潜在的数据治理场景以及方案

· 短期 ec, 列ttl, 文件ttl

· 长期(统一权限、统一血缘等)

听众收益:

1. Gravitino 解决了传统元数据管理的哪些痛点

2. 如何通过统一元信息管理,实现降本增效


王磊 美团 技术专家

个人介绍:长期从事数据研发相关工作,具有传统行业和互联网行业多年工作经验。专注于数据架构、数据建模、数据治理等领域解决方案建设和落地。

演讲题目:数据治理场景下的数据血缘应用实践分享

演讲提纲:数据血缘是数据治理非常重要的基础能力之一,本次分享主要介绍数据血缘基础能力建设实践,以及在不同治理场景中基于血缘的治理能力建设和落地,希望对大家有所启发和帮助。

听众收益:

1. 对数据血缘建设和使用有一个全面的了解

2. 在日常工作中,基于血缘衍生能力解决一些数据问题


扫码免费报名,收看直播

刘浩阳 字节跳动 大数据研发专家

个人介绍:刘浩阳,字节跳动大数据研发专家,有多年的大数据经验,专注于大数据管理、数据服务以及BI分析产品等大数据中台化建设工作。

演讲题目:字节大数据血缘演进与应用

演讲提纲:

1. 字节血缘整体介绍

2. 字节血缘系统架构

3. 字节血缘应用场景

4. 未来展望

听众收益:

1. 认识大数据血缘方向,了解建设思路

2. 血缘系统架构如何设计,重点解决的问题

3. 血缘的价值应用在哪些方向


朱江 火山引擎 LAS 大数据研发专家

个人介绍:火山引擎LAS大数据研发专家,主要负责SQL解析优化,权限管控等方面工作。

演讲题目:抖音集团离线数仓血缘基础能力的构建与应用

演讲提纲:在数据中台的大背景下,离线数仓领域中用户经常需要解决以下问题:

- 哪些 Hive 表包含业务 A 的数据?

- 哪些 Hive 表 / Hive 列无下游使用,可以进行数据治理?

这些问题可以统一归类为数据发现问题。字节跳动通过算子级血缘能力,针对离线数仓任务进行 SQL 分析,构建 Hive 表的血缘关系,基于标签传播算法自动化工程化地解决数据发现问题,规避人工标注存在的周期长、成本高、准确率低等问题,对数据进行精细化运营,助力标签传播,数据治理等场景。

另外,数据安全问题近期也逐步受到各国政府和企业的重视,随着国家数据安全法、个人信息保护法的相继颁布和实施,对于数据最小够用原则也提出了明确的要求。因此,如何更细粒度管控权限,如何保证数据安全也变成了每个企业都必须解决的问题。字节跳动基于算子级血缘能力,构建了 SQL 权限点精细化提取能力及动态脱敏能力,有效的保证了敏感数据安全可控。

听众收益:

1. 血缘能力在指标传播,数据治理等场景的应用。

2. 血缘能力在 SQL 权限点精细提取,动态脱敏等场景的应用。


肖文彬 中国移动通信集团广东有限公司 大数据高级主管

个人介绍:中山大学硕士研究生毕业,高级工程师,中国移动集团大数据IT专家,中国电子信息行业联合会数据治理行业专家,中国通信标准化协会大数据技术标准推进委员会专家委员。长期进行广东移动AI、大数据平台建设及数据治理工作,曾获广东省科技进步奖二等奖,广东省技术能手等奖项。

演讲题目:数据编织:释放数据价值的新钥匙--在运营商多元异构环境中的治理与应用实践

演讲提纲:本次演讲主要介绍广东移动的数据编织实践经验,主要讨论:

1. 广东移动大数据发展历程

2. 面临挑战

3. 基于数据编织理念构建智能数据管理方案

4. 应用推广成效

5. 未来展望

听众收益:

1. 了解企业级数据编织的必要性

2. 了解广东移动数据编织架构方案

3. 数据编织在超大规模数据应用场景的落地经验


王轩 南京银行 总行数字银行管理部团队经理

个人介绍:南京银行数字银行管理部平台研发部团队经理,主要负责南京银行数据中台相关工具建设。

演讲题目:城商银行基于 DataOps 的数据中台建设实践探索

演讲提纲:

1 建设背景

2 建设方案

3 建设成果

听众收益:

1. 基于 DataOps 的数据中台如何建设

2. DataOps 落地过程中的困难点

3. DataOps 的价值和意义


何婵 小米 产品经理

个人介绍:现任小米大数据产品经理,武汉大学 MEM 硕士。加入小米4年,深度参与 Mi-DataWorks(小米一站式数据生产平台)产品管理,当前聚焦于集团内 AI 数据存算管治一体化平台建设工作。

演讲题目:Fileset:小米 AI 数据管理平台落地实践

演讲提纲:

1. AI 数据管理平台的建设背景

2. 小米的 AI 数据管理方案介绍

3. Showcase 和业务收益

听众收益:

1. AI数据管理的发展趋势和业界方案

2. 小米 AI 数据管理平台设计方法论,包括:非表格数据资产统一管理、权限管控、数据处理和机器学习等

3. 未来规划

扫码免费报名,收看直播

张言龙 阿里巴巴 大数据专家

个人介绍:中科大硕士,曾任职 PayPal,同盾科技,现主要负责阿里企业经营管理域的数据建设和管理,智能服务安全体系建设。

演讲题目:企业智慧助手-大模型应用下的安全链路设计与实践

演讲提纲:

1. 背景

2. 整体分析思路和架构设计

3. 挑战与解决思路

4. 未来展望

听众收益:

1. 大模型应用下,安全评测如何和设计

2. 智能问答场景下,不同类型的风险怎样处理

3. 智能化场景中如何做到端到端的安全识别和风险处置


张天峰 蚂蚁集团 数据技术专家

个人介绍:本科毕业于杭州电子科技大学,十年以上金融科技行业数仓建设经验,18年加入蚂蚁集团,主导安全合规数据架构以及数据资产建设与治理,目前专注于安全新一代指标体系建设,打造更加智能化的指标服务能力。

演讲题目:新一代指标体系在安全场景下的数据治理实践

演讲提纲:

1. 金融安全场景下面对的数据治理问题及难点

2. 蚂蚁新一代指标体系的内容及实践路径

3. 应用后在数据治理中的效果

4. 未来的建设规划

听众收益:

1. 安全场景下数据治理的难点

2. 指标自动化研发及智能化服务如何推动数据治理

3. 新的指标体系建设带来的数据治理价值及后续发展方向


HelenMa 沐瞳游戏 数仓负责人

个人介绍:华东理工大学运筹学硕士,先后任职于新蛋网、美团点评、哔哩哔哩,目前任沐瞳科技数据仓库负责人,主要从事数据挖掘、数仓开发等工作。

演讲题目:沐瞳大数据成本治理实践

演讲提纲:

1. 大数据成本治理框架

2. AWS 成本治理实践

3. 风神数据集治理实践

4. 治理收益与工具提效

5. 总结与展望

听众收益:

1. 如何通过成本治理,保障存量业务0增长目标?

2. 好的治理提效手段有哪些?

3. 公司级数据标准规范建设


郏建超 京东零售 架构师

个人介绍:2006年毕业于山东大学计算机系,长期从事大数据领域工作,有丰富的大数据SRE和数据管理经验,当前主要负责京东大数据资产管理体系建设。

演讲题目:京东大数据治理探索与实践

演讲提纲:

1. 数据治理系统落地的关键技术

2. 如何驱动常态化治理

3. 主动元数据治理

4. 从节流->开源,如何更高效利用现有资源

听众收益:

1. 做好治理需要有哪些必备条件

2. 如何从运动式治理升级到常态化治理

3. 如何进一步降低治理成本


贾承昆 知乎 数据平台负责人

个人介绍:曾就职于阿里云、猿辅导、知乎等公司,大数据行业老兵,有多年的数据架构经验,目前在负责知乎大数据平台团队。

演讲题目:知乎大数据如何降本增效?

演讲提纲:

1. 背景

2. 企业内降本的挑战

3. 运营驱动降本

4. 技术驱动降本

5. 总结和反思

听众收益:

1. 如何在企业内部建立成本度量体系

2. 如何通过技术手段比如混部、压缩、自动调参等方式降本数据的计算和存储成本


扫码免费报名,收看直播

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存