数据治理在真实应用场景的落地探索!
目前数据治理的前沿话题有哪些?
为了实现数据要素价值的最大化,做好数据治理和数据资产入表是必不可少的过程。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:
扫码免费报名,收看直播
峰会日程
精彩议题
部分议题详细介绍
兰晨 腾讯互娱 数据治理平台技术负责人
个人介绍:13年大数据研发与架构经验,曾构建腾讯游戏/TCL/招商银行等大型企业的经分系统,目前负责腾讯IEG数据治理平台,提供数据接入、元数据管理、数据应用一站式服务。
演讲题目:大模型在数据发现的应用探索
演讲提纲:
1. 腾讯游戏数据治理概要
2. 大模型技术对于大数据治理的启发
3. 大模型技术在数据发现的应用
听众收益:
1. 腾讯游戏数据治理面临的困难与挑战
2. 库表这么多,我这个数据需求应该用哪些?
3. 腾讯大模型混元如何助力数据发现?
李天航 哔哩哔哩 大数据开发工程师
个人介绍:李天航,Bilibili 大数据开发工程师,Apache Gravitino contributor,专注于大数据场景下的元数据管理 & Spark 计算引擎优化。
演讲题目:统一元数据管理 - Gravitino 在 B 站的最佳实践
演讲提纲:
1. 当前元数据管理的现状
- 介绍当前元数据管理面临的主要问题和挑战
- 分析传统元数据管理架构的局限性
2. 引入 Gravitino 的背景
- 解释引入中心化元数据管理系统的重要性
- 分析与对比目前工业界主流的元数据管理组件
- 强调 Gravitino 在数据治理方面的重要意义及潜力
3. Gravitino 在B站元数据管理中的应用
- 具体介绍引入 Gravitino 的场景以及解决的痛点
- 分析 Gravitino 在数据治理过程中遇到的挑战及解决方案
4. Gravitino 在B站实践的成果
- 分享对于多数据源的统一元信息管理的提效成果
- 分享在 Kafka schema 信息管理的提效成果
- 分享基于对 Fileset 管理的数据治理降本成
5. 未来 Gravitino 在B站大数据基础架构中场景的探索和展望
- 潜在的数据治理场景以及方案
· 短期 ec, 列ttl, 文件ttl
· 长期(统一权限、统一血缘等)
听众收益:
1. Gravitino 解决了传统元数据管理的哪些痛点
2. 如何通过统一元信息管理,实现降本增效
王磊 美团 技术专家
个人介绍:长期从事数据研发相关工作,具有传统行业和互联网行业多年工作经验。专注于数据架构、数据建模、数据治理等领域解决方案建设和落地。
演讲题目:数据治理场景下的数据血缘应用实践分享
演讲提纲:数据血缘是数据治理非常重要的基础能力之一,本次分享主要介绍数据血缘基础能力建设实践,以及在不同治理场景中基于血缘的治理能力建设和落地,希望对大家有所启发和帮助。
听众收益:
1. 对数据血缘建设和使用有一个全面的了解
2. 在日常工作中,基于血缘衍生能力解决一些数据问题
扫码免费报名,收看直播
刘浩阳 字节跳动 大数据研发专家
个人介绍:刘浩阳,字节跳动大数据研发专家,有多年的大数据经验,专注于大数据管理、数据服务以及BI分析产品等大数据中台化建设工作。
演讲题目:字节大数据血缘演进与应用
演讲提纲:
1. 字节血缘整体介绍
2. 字节血缘系统架构
3. 字节血缘应用场景
4. 未来展望
听众收益:
1. 认识大数据血缘方向,了解建设思路
2. 血缘系统架构如何设计,重点解决的问题
3. 血缘的价值应用在哪些方向
朱江 火山引擎 LAS 大数据研发专家
个人介绍:火山引擎LAS大数据研发专家,主要负责SQL解析优化,权限管控等方面工作。
演讲题目:抖音集团离线数仓血缘基础能力的构建与应用
演讲提纲:在数据中台的大背景下,离线数仓领域中用户经常需要解决以下问题:
- 哪些 Hive 表包含业务 A 的数据?
- 哪些 Hive 表 / Hive 列无下游使用,可以进行数据治理?
这些问题可以统一归类为数据发现问题。字节跳动通过算子级血缘能力,针对离线数仓任务进行 SQL 分析,构建 Hive 表的血缘关系,基于标签传播算法自动化工程化地解决数据发现问题,规避人工标注存在的周期长、成本高、准确率低等问题,对数据进行精细化运营,助力标签传播,数据治理等场景。
另外,数据安全问题近期也逐步受到各国政府和企业的重视,随着国家数据安全法、个人信息保护法的相继颁布和实施,对于数据最小够用原则也提出了明确的要求。因此,如何更细粒度管控权限,如何保证数据安全也变成了每个企业都必须解决的问题。字节跳动基于算子级血缘能力,构建了 SQL 权限点精细化提取能力及动态脱敏能力,有效的保证了敏感数据安全可控。
听众收益:
1. 血缘能力在指标传播,数据治理等场景的应用。
2. 血缘能力在 SQL 权限点精细提取,动态脱敏等场景的应用。
肖文彬 中国移动通信集团广东有限公司 大数据高级主管
个人介绍:中山大学硕士研究生毕业,高级工程师,中国移动集团大数据IT专家,中国电子信息行业联合会数据治理行业专家,中国通信标准化协会大数据技术标准推进委员会专家委员。长期进行广东移动AI、大数据平台建设及数据治理工作,曾获广东省科技进步奖二等奖,广东省技术能手等奖项。
演讲题目:数据编织:释放数据价值的新钥匙--在运营商多元异构环境中的治理与应用实践
演讲提纲:本次演讲主要介绍广东移动的数据编织实践经验,主要讨论:
1. 广东移动大数据发展历程
2. 面临挑战
3. 基于数据编织理念构建智能数据管理方案
4. 应用推广成效
5. 未来展望
听众收益:
1. 了解企业级数据编织的必要性
2. 了解广东移动数据编织架构方案
3. 数据编织在超大规模数据应用场景的落地经验
何婵 小米 产品经理
个人介绍:现任小米大数据产品经理,武汉大学 MEM 硕士。加入小米4年,深度参与 Mi-DataWorks(小米一站式数据生产平台)产品管理,当前聚焦于集团内 AI 数据存算管治一体化平台建设工作。
演讲题目:Fileset:小米 AI 数据管理平台落地实践
演讲提纲:
1. AI 数据管理平台的建设背景
2. 小米的 AI 数据管理方案介绍
3. Showcase 和业务收益
听众收益:
1. AI数据管理的发展趋势和业界方案
2. 小米 AI 数据管理平台设计方法论,包括:非表格数据资产统一管理、权限管控、数据处理和机器学习等
3. 未来规划
扫码免费报名,收看直播
张言龙 阿里巴巴 大数据专家
个人介绍:中科大硕士,曾任职 PayPal,同盾科技,现主要负责阿里企业经营管理域的数据建设和管理,智能服务安全体系建设。
演讲题目:企业智慧助手-大模型应用下的安全链路设计与实践
演讲提纲:
1. 背景
2. 整体分析思路和架构设计
3. 挑战与解决思路
4. 未来展望
听众收益:
1. 大模型应用下,安全评测如何和设计
2. 智能问答场景下,不同类型的风险怎样处理
3. 智能化场景中如何做到端到端的安全识别和风险处置
张天峰 蚂蚁集团 数据技术专家
个人介绍:本科毕业于杭州电子科技大学,十年以上金融科技行业数仓建设经验,18年加入蚂蚁集团,主导安全合规数据架构以及数据资产建设与治理,目前专注于安全新一代指标体系建设,打造更加智能化的指标服务能力。
演讲题目:新一代指标体系在安全场景下的数据治理实践
演讲提纲:
1. 金融安全场景下面对的数据治理问题及难点
2. 蚂蚁新一代指标体系的内容及实践路径
3. 应用后在数据治理中的效果
4. 未来的建设规划
听众收益:
1. 安全场景下数据治理的难点
2. 指标自动化研发及智能化服务如何推动数据治理
3. 新的指标体系建设带来的数据治理价值及后续发展方向
HelenMa 沐瞳游戏 数仓负责人
个人介绍:华东理工大学运筹学硕士,先后任职于新蛋网、美团点评、哔哩哔哩,目前任沐瞳科技数据仓库负责人,主要从事数据挖掘、数仓开发等工作。
演讲题目:沐瞳大数据成本治理实践
演讲提纲:
1. 大数据成本治理框架
2. AWS 成本治理实践
3. 风神数据集治理实践
4. 治理收益与工具提效
5. 总结与展望
听众收益:
1. 如何通过成本治理,保障存量业务0增长目标?
2. 好的治理提效手段有哪些?
3. 公司级数据标准规范建设
郏建超 京东零售 架构师
个人介绍:2006年毕业于山东大学计算机系,长期从事大数据领域工作,有丰富的大数据SRE和数据管理经验,当前主要负责京东大数据资产管理体系建设。
演讲题目:京东大数据治理探索与实践
演讲提纲:
1. 数据治理系统落地的关键技术
2. 如何驱动常态化治理
3. 主动元数据治理
4. 从节流->开源,如何更高效利用现有资源
听众收益:
1. 做好治理需要有哪些必备条件
2. 如何从运动式治理升级到常态化治理
3. 如何进一步降低治理成本
扫码免费报名,收看直播