DataFunSummit

其他

从 Data 到 Data+AI,数据基础设施第三次演进的观察与思考

时代。数据库和大数据平台为当今企业的数字化创新的基础设施奠定了基石。常见的数据相关的创新,例如商业智能(BI)和智能搜索推荐等一些智能应用,都是前两次技术革命带来的落地应用。近两年来,以
9月7日 下午 6:01
其他

知识图谱增强在 360 文档知识问答及管理中的应用实践

智能文档借助大模型,实现了以下三个层次的能力:第一层是读得懂,对文档内容进行深度解读和总结;第二层是搜得到,能够快速从海量知识文档中获取答案;第三层是答得准,可以提供准确匹配的搜索结果。3.
9月6日 下午 6:02
其他

当数据库有了Copilot,DBA不用再灭火了!

故障诊断的演示视频:通过简单的对话问答,就能快速进行故障诊断,同时页面左侧还能同步生成流程分析画布,展示针对该故障的排查逻辑。流程分析画布及对话页面示意图ChatDBA
9月5日 下午 6:04
其他

Elasticsearch 8 让企业更快更好地落地 RAG 应用

从零到一:揭秘类聚和空间填充曲线(六)ChatBI+Agent引领的数据产品新形态!智能NPC的多维进化:腾讯在AI领域的探索与应用在电商场景中,如何建设全链路数据血缘?大模型在小爱同学应用实践基于
9月4日 下午 6:05
其他

有效解决数据驱动型人工智能面临的 I/O 挑战

模型部署这是一个模型部署上线的场景。客户有多个机房(在线、离线机房),其中模型训练在离线机房完成,并通过机器学习平台进行训练,完成微调后,模型需要迅速推送到在线机房的推理服务器进行上线。通常每
9月2日 下午 6:04
其他

大语言模型训练中的数据管理

阶段,每个阶段根据数据集构建的特点会包括不同的方面。下面将分别展开介绍。02预训练阶段的数据管理预训练阶段的整体流程如上图所示,主要包括三个部分:首先是领域组成,预训练数据集具体包含网页、wiki
9月1日 下午 6:01
其他

Apache Hudi 从零到一:揭秘类聚和空间填充曲线(六)

选择符合条件的分区和文件切片。用户可以定义特定的分区模式(如使用正则表达式)来定位特定的分区。在这些分区内,满足特定条件的文件切片(比如不属于待定压缩计划的,或者符合小文件要求的)将被加入到
8月31日 下午 6:01
其他

ChatBI+Agent引领的数据产品新形态!

数据产品踩坑方法论?大模型如何重塑数据产品新形态?数据产品背后有怎样的数据指标逻辑?ChatBI与Agent产品如何做?洞察数据奥秘的基础产品范式?如何制定有效的产品策略并验证效果?9月22日,09:00-17:00,DataFun将联合业内多位知名产品专家举办DataFunSummit2024:数据产品在线峰会,探讨大模型时代的数据产品设计理念与方法论,并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程议题推荐:详细介绍:王成栋
8月30日 下午 6:02
其他

智能NPC的多维进化:腾讯在AI领域的探索与应用

的基础特征就是具备基础开放对话的能力和多模表现能力,高级特征包括决策能力、游戏行为能力、感知能力和记忆能力,更高级的则是一些社会特征,包括剧情涌现生成和协作的能力。02我们的实践在分析完行业的
8月29日 下午 6:02
其他

在电商场景中,如何建设全链路数据血缘?

和稳定性提升,提升下游切换意愿。下面介绍技术实现。用户输入需要切换的旧表之后,平台通过旧表的产出任务进行解析,获取语法树文件,并基于语法树文件做裁剪、替换。基于用户输入的新旧表映射关系生成切换后的
8月28日 下午 6:04
其他

让大模型更懂情感,我看到了巨大的市场潜力

情感陪伴类产品,将会释放出无限的想象力和市场空间。我们可以想象到这样的未来:每个人都将有个亲密无间的机器人朋友,甚至包括农村的老年人。基于此,关于
8月28日 下午 6:04
其他

大模型在小爱同学应用实践

的推理能力,规划分解为子任务,并识别各子任务的依赖关系,生成一个子任务序列及其依赖关系,形成一个有向无环图。如果一个任务依赖于之前的任务,它将使用占位符变量,用该任务的实际输出替换该受量。Task
8月27日 下午 6:01
其他

基于 Doris 湖仓一体分析系统在快手的实践

消费驱动生产为解决上述问题,我们在湖仓一体分析系统中引入了自动物化功能,这一创新旨在实现消费驱动生产,即根据消费需求灵活调整生产模式。自动物化功能完全屏蔽了数据工程师的参与,交由引擎自主管理,确保
8月26日 下午 6:00
自由知乎 自由微博
其他

金融大模型数据治理与应用创新

的报告里面,整体上取得比较不错的效果。整个的准确率、覆盖面提升比较多,目前如果说针对这种中低质量和比较不清晰的文档,就是当前多模态的能力,判断还是有一定差距,会持续跟进研发的进展。03数据治理领域的
8月25日 下午 6:02
其他

面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验

Spark向量化能力解析FinLLM:金融大模型真实场景落地实践数据普惠与智能分析:LLM时代下指标平台的构建与创新实践数据治理体系建设与落地探索企查查的数据降本增效之路点个在看你最好看SPRING
8月24日 下午 6:02
其他

生成式AI带来的冲击与改变,我们讨论得还远远不够

的讨论一直不曾间断。与此同时,技术的更迭和新的应用场景仍在不停歇地向前发展着,高频率的技术交流势在必行,技术会议和技术活动可以很好地培养我们对新技术的敏锐度和技术视野。基于此,DataFun
8月23日 下午 6:04
其他

大模型在新能源汽车行业的应用与最佳实践

访问数仓。有了大模型之后,完全可以通过自然语言交互的方式直接访问数据,数据隐藏在模型底层,是模型的一部分,直接面向使用者的就是模型层的能力,我们再也不需要直接面向数据进行分析和使用。1.
8月23日 下午 6:04
其他

多模态在京东内容算法上的应用

机制链路有更多的流量确定性和可解释性。这里我们更多是结合动态内容理解进行一些应用,比如入池规则,我们会基于标签实现供给多样性分发,我们会选取不同标签类型进入冷启库,以满足更多用户的需求,实现场域内
8月22日 下午 6:04
其他

智能电销新纪元:大模型技术的应用与未来趋势

和传统机器人的缺陷,通过拟人化对话和情绪识别,提升了用户体验和粘性。最后,企业可以利用开源的大模型进行应用,而无需自己开发底层模型。02大模型简介接下来介绍大模型的相关知识。1.
8月20日 下午 6:04
其他

Apache Hudi 从零到一:初识表服务:压缩、清理及索引(五)

中运行表服务的方法分为三种模式:内联模式(Inline)、半异步模式(Semi-async)和全异步模式(Full-async),如下所示,以提供对各种现实场景的灵活性。表服务运行模式在内联
8月19日 下午 6:02
其他

小红书推荐系统迭代:AB测试架构的高效与稳定性策略

的相关性很高,这可以帮助我们在单个实验中做出更好的决策。以上就是本次分享的内容,谢谢大家。分享嘉宾INTRODUCTION赵单栋小红书实验平台leader当下在小红书负责实验平台。之前在谷歌做过
8月18日 下午 6:00
其他

7倍性能提升|阿里云AnalyticDB Spark向量化能力解析

Systems[1],从测试效果看Photon性能非常好,但并没有开源,这也提供了对Spark加速的新思路。同年Kyligence和Intel合作开源了项Gluten,Gluten依赖Native
8月17日 下午 6:01
其他

数据普惠与智能分析:LLM时代下指标平台的构建与创新实践

指标平台的核心目标为实现统一语义层的构建,以及计算加速。上图中展示了数势科技指标平台的整体架构,是一个典型的分层的松耦合的微服务架构。底层是数据接入层,可以接入各种常见的数据源,用的是
8月15日 下午 6:33
其他

数据治理体系建设与落地探索

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题详细介绍①
8月14日 下午 6:01
其他

小红书训推异构引擎的设计与应用

训练框架。未来的一个趋势是业务高速增长且算法快速迭代,我们将面临更大规模的数据集,以此倒推,我们需要更高的训练吞吐量以确保训练效率。其次,模型的复杂度也在增加。近年来,一些常见的复杂网络建模方法,如
8月12日 下午 6:02
其他

基于 tugraph-analytics 的实时业务数据异常归因诊断

和计算开销;第二是无数据冗余,在表场景下,我们为了做一个场景加速,往往都需要将多张表提前物化成一个大的宽表,这样就会造成很大的数据冗余;第三是图支持更复杂的关系查询,表要做关系查询只能通过
8月11日 下午 6:01
其他

大语言模型在图推荐系统中的融合与优化策略

上进行训练。这样,每个用户和商品都会有一个嵌入向量,这个嵌入向量中包含了一些用户和商品从协同过滤角度的信息。第二步是使用前文提到的方法获取用户/商品的文本描述。这样,每一个用户和商品不仅有一个
8月10日 下午 6:03
其他

Data+LLM:金融真实场景的技术创新实践

金融数据智能技术大起底!金融垂直大模型如何落地?AIGC、RAG、Agent应用效果怎样?基于因果的智能营销?风控与反欺诈的前沿技术?8月31日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数智金融技术峰会,将深度探讨大模型时代金融领域的最新态势,分享各自的研究成果与实践经验,共同推动Data+LLM技术在金融各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题部分议题详细介绍曾阳
8月9日 下午 6:02
其他

京东广告稀疏大模型训练与推理 GPU 优化实践

方面,我们分析了训练集群的整体工作流,主要分为五步:样本下载、特征计算、特征拉取、数据从主机到设备的拷贝,以及训练。基于此工作流,我们研发了五级分布式流水线,将
8月8日 下午 5:59
其他

好的数据治理怎么做?

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题部分议题详细介绍兰晨
8月7日 下午 6:01
其他

销售易基于 Lakehouse 的实时分析提升用户数据体验实践分享

ID,因为每个租户都有其自己的原始数据。原始数据分层中会包括通用标准的原始数据,比如商机和客户等,但每个租户也会有其特定的原始数据,比如汽车租户可能会有车主等。因此,在实体原数据表中也会包含租户
8月6日 下午 6:03
其他

Velox内存管理深度解析:从基础到高级特性

https://prestodb.io/blog/2024/06/24/diving-into-the-presto-native-c-query-engine-presto-2-0/[4]
8月5日 下午 6:01
其他

Apache Hudi 从零到一:全面解读写入索引(四)

服务器实现。它存储记录键与相关文件组信息之间的映射,并且是一个全局索引。这在大多数情况下为标记提供了高效的查找,并且随着表大小的增加可以轻松横向扩展。然而,缺点是造成了管理额外服务器的运维开销。5.
8月4日 下午 6:03
其他

Apache Hudi 从零到一:理解写入流程和操作(三)

BaseFile,则将分配插入桶,并将为它们创建新的文件组。(4)然后,存储桶中的记录通过文件写入句柄处理,以便实现持久化存储。对于更新桶中的记录,将使用“合并”句柄,从而在现有文件组中创建新的
8月3日 下午 6:02
其他

用最酷的RAG,训最猛的大模型!

如何从0到1训练千亿大模型?怎样提升大模型长文本能力?抖音RAG技术方案选型LLM在大数据、数据分析中落地探索大模型在搜索、推荐、广告、金融等领域的应用再好的大模型,也需要落地应用,才能产生价值。8月3日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:大模型技术峰会,并和大家一起探讨大模型技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型技术在各个领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛介绍详细介绍①
8月2日 下午 6:04
其他

Apache Spark SQL 原理

基于开源开放的设计理念,兼容开源引擎并进行深度优化,开放式架构支持主流引擎生态,支持多元异构引擎灵活插拔,支持流批一体、湖仓一体、数智一体等场景化能力。在此基础上,CyberEngine
8月1日 下午 6:01
其他

Data+LLM:数据治理新范式探索

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题部分议题详细介绍兰晨
7月31日 下午 6:04
其他

多模态手机智能体 Mobile-Agent

版本基于安卓模拟器实现,已展示了诸如天气查询、视频浏览、视频搜索和导航等全自动手机操作。我们也提供了快速接入手机进行实测的方法,给出指令后,智能体可以从手机桌面多步完成任务。这与苹果前段时间发布的
7月30日 下午 6:02
其他

大模型推荐系统:进展与未来

generation。以上就是本次分享的内容,谢谢大家。分享嘉宾INTRODUCTION王文杰博士新加坡国立大学研究员王文杰,新加坡国立大学研究员,主要研究方向为推荐系统、大模型和因果推理。2023
7月29日 下午 6:05
其他

开源框架 ModelScope-Agent 加速多智能体应用构建

协同框架。这是为了解决单智能体面临的问题,即当操作过于复杂或工具链过长时,模型的效果会受到影响。长序列问题无论对文本大模型还是多模态大模型来说,都是一个待解决的问题。因此,我们将其拆解为Multi
7月27日 下午 6:02
其他

数据治理在真实应用场景的落地探索!

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?为了实现数据要素价值的最大化,做好数据治理和数据资产入表是必不可少的过程。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题部分议题详细介绍兰晨
7月26日 下午 6:03
其他

大模型与图机器学习协同的用户行为风控

实时数据更新的技术选型与工程实践LLM+RAG:大模型真实落地应用范式探索音频表征大模型在音乐冷启的应用大模型时代知识图谱赋能高血压智能诊疗实践字节跳动系统智能运维实践
7月25日 下午 6:06
其他

从RAG到Agent,就是大模型的全部了?

如何从0到1训练千亿大模型?怎样提升大模型长文本能力?抖音RAG技术方案选型LLM在大数据、数据分析中落地探索大模型在搜索、推荐、广告、金融等领域的应用再好的大模型,也需要落地应用,才能产生价值。8月3日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:大模型技术峰会,并和大家一起探讨大模型技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型技术在各个领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题详细介绍①
7月24日 下午 6:01
其他

加速云端机器学习-Alluxio 在小红书的实践

的交互都是同机房的一个流量,理论上也需要保护,但不影响专线。(3)读写性能优化在读性能优化方面,通常是识别了读的特征之后做预读,通过预读能够明显提升读的性能,尤其是在冷读数据的情况下。在
7月23日 下午 6:02
其他

从 Bert 到 LLM:360 广告推荐业务中语言模型的应用探索

建模用户兴趣,更适合大规模的时序数据。02语言模型如何助力推荐系统接下来是语言模型在推荐系统中的应用演化,各个算法的适用场景,以及有哪些算法可以应用到广告推荐业务的场景。整体的发展脉络以
7月22日 下午 6:10
其他

模型赋能下的数据安全合规管理

case。比如传统过程中数据治理或者元数据的质量校验结果,要和大模型的结果做对齐,这是我们未来要去做的,并且考虑将其平台化,这样整个对齐的过程只需要在平台里面去看一下结果是不是
7月21日 下午 6:00
其他

TCHouse-C 实时数据更新的技术选型与工程实践

会识别冲突并进行处理,这虽然牺牲了一定的写入性能,但在查询时却能够显著提升性能。由于写入时已经对冲突数据进行了处理,查询时合并的代价就相对较小,从而提高了查询的响应速度和效率。Delta-Store
7月20日 下午 6:01
其他

音频表征大模型在音乐冷启的应用

上进行了改进,除了预测掩蔽的音频片段特征外,还使用自身聚类类别作为预测的又一监督,实验证明该模型加强了对语音的理解和表示能力,在说话人识别等任务上表现出色,近两年已经得到了广泛的应用。接下来,以
7月18日 下午 6:02
其他

Al Agent--大模型时代重要落地方向

之间会相互对话,也会在社交媒体或者推荐系统中自主地产生各种各样的行为;通过多轮模拟之后,可以观察到一些有趣的社会现象,以及用户在网络上行为的规律。更多内容可参考下述论文:Lei
7月17日 下午 6:30
其他

直播预告|我们在策划一件大事

Party。现在就扫描上方二维码预约直播吧(悄悄说:发布会设置了多个抽奖环节,多种惊喜大礼等你来拿,奖品还有深圳站嘉宾票哦)!欢迎扫码添加票务小助手企微,提前了解会议详情。
7月17日 下午 6:30