查看原文
其他

DataFunCon 2024·北京站首日圆满收官

DataFunSummit
2024-09-10

7 月 5 日,为期两天的 DataFunCon 2024·北京站在北京丽亭华苑酒店隆重开幕。本次活动以“大数据·大模型·双核时代”为主题,吸引了数百位来自全国各地的大数据与人工智能领域的专家学者、企业高管以及技术爱好者,共同探索前沿技术与实践应用。

在主论坛环节,阿里云智能集团研究员,阿里云计算平台事业部产品负责人徐晟率先登台,作了题为《阿里云智能大数据演进》的主题演讲,强调了从数据湖到湖仓一体,再到大数据与 AI 一体化的发展路径,并介绍了在此背景下阿里云智能大数据产品的演进路线。据了解,阿里云在大数据与人工智能领域展现出了卓越的全球化服务能力,每天有大约 2.8EB 的数据被处理,有超过 10 万台服务器在执行大数据计算任务,其全球覆盖已经扩展至 30 个区域、89 个可用区,并拥有超过 3200 个 CDN 节点,可确保在全球范围内提供高效、稳定的大数据和 AI 服务。

徐晟表示,如今,大数据、搜索和 AI 首次同台亮相,这个时代对系统、产品、知识结构和方向的要求都与以往不同,在这个大模型时代,阿里云期待通过数据湖仓拉通大数据计算和AI Infra甚至搜索来支持大模型的发展和应用,开发出更多创新产品,助力企业更好的开展业务。

随后,ProtonBase 研究员蒋晓伟分享了《分布式 Data Warebase - 让数据涌现智能》的主题演讲,深入讲解了分布式 Data Warebase 技术的创新与应用,展示了其在数据智能领域的重要作用。他以 DIKW 模型为框架,即数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)模型,描述了在当前这个时代,数据如何转化为更有价值的信息、知识,最终形成智慧的框架。

他表示,对于机器而言,数据仅呈现为一串比特流,机器不理解数据的含义。然而,通过数据模型这种语言,我们有效地将数据赋予结构,转化为信息。在此基础上,通过对信息的归纳和汇总,我们就得到了知识,并且发展出一种用于表达知识的数学语言——即嵌入向量。在对知识进行深入的洞察和推理之后,我们将会获得智慧。这个过程中智能越来越高级,而智慧作为最高层次的智能,目前只有人类可以拥有。但是我们希望在不久的将来,机器也将拥有通用人工智能,也就是 AGI。当那一天实现的时候,我们也许会发现一种表达智慧的数学语言。因此,数据系统已不再仅仅满足于扮演简单的存储、组织、检索、管理与分析信息的角色,而是肩负起更为宏大的使命——让数据涌现智能。

中国人民大学高瓴人工智能学院教授赵鑫以《大模型技术的研发与思考》为题,带来了他对大模型技术的深度解析。赵鑫教授从语言模型能力的构建、数据资源建设以及大模型评测等方面分享了他的 AI 研究心得。

他强调,数据构建是训练大模型的首要基础,开源数据集对学术界具有重大意义。然而,当前中文数据集的清洗仍面临挑战。他提议,国内机构在积累足够数据工程经验后,应共同努力清洗并开源高质量数据集。此外,赵教授还指出关注大语言模型的六个主要方面:高质量数据的收集、大规模训练架构的构建、低成本可预测学习方法的开发、模型智能化与准确性的提升、模型综合能力的增强以及模型可扩展性的加强。

最后的圆桌对话将整个活动推向高潮。圆桌由 DataFun 创始人王大川主持,徐晟、赵鑫以及云器科技联合创始人 &CTO 关涛等三位嘉宾围绕「从涌现到价值涌现,再看大模型发展趋势」这一话题展开深入交流,探讨了企业在拥抱大模型时需要关注的关键点,以及如何根据自身业务场景选择合适的大模型应用策略。

部分观点如下——

发展现状及未来趋势:大模型的发展速度非常快,部分公司有望在未来实现能够匹敌 GPT-4 水平的模型。然而,下一代模型(如 GPT-5 或 GPT-6)的开发难度将非常大,需要巨大的资金和人才投入。

全球范围内的应用案例:大模型在全球范围内的应用已经相当普遍,尤其在自动驾驶、智能客服、推荐系统等领域。这些应用不仅提高了工作效率,还为用户带来了更好的体验。不过,在实际应用中仍面临诸多挑战,如数据质量、模型稳定性、成本效益等问题。

高价值业务场景:在实际业务中,高价值应用场景通常具有以下特点:能够产生显著的业务收入、技术门槛相对较低、数据资源丰富。

企业应对策略:企业在拥抱大模型时,应聚焦自身业务场景,冷静看待大模型的能力,并根据自身条件选择合适的应用策略。对于头部企业,可以投入大量资源进行预训练;而对于中小型企业,则可以利用现有模型和数据资源进行优化和创新。

关涛补充了三个核心观点:“第一,大模型发展趋缓,企业聚焦应用落地;第二,传统深度学习全面向大模型转移,大模型开始逐步打穿垂直场景,比如自动驾驶、搜索推荐;第三,对于非头部企业,数据成为AI落地的最关键差异化因素。Data+AI开始成为关注点。”

在上午的主论坛环节,DataFun 创始人王大川还分享了 DataFun 的发展历程、运营理念及未来规划。DataFun 从一个外行人创办的小社区,发展成为国内领先的数据智能开发者社区,举办了近千场线上线下活动,影响了数十万人。王大川强调,DataFun 的成功离不开“利他”的运营理念,始终将内容生产者和消费者的利益放在首位。展望未来,DataFun 将继续深化媒体业务、技术大会和企业培训业务,为中国数智化转型贡献一份力量。

现场图集:扫描上方二维码,观看大会首日精彩瞬间。

幻灯片下载:扫描上方二维码,关注「DataFunSummit」公众号,回复 240705,免费下载本次会议课件。

知识地图&技术成熟度曲线下载:扫描上方二维码,免费下载全套知识地图&技术成熟度曲线。

5 日下午,「重构数据基建:新一代数据架构」「量化决策的艺术:AB 实验与因果推断」「定制未来:大模型微调」「大模型增强用户体验与用户服务」「智能·高效 :大模型重塑个人助理与办公协作」「数智驱动 AI 时代业务创新论坛」等六大分论坛精彩亮相,听众与分享嘉宾在互动中共同探索大数据与人工智能领域的未来趋势与实践应用。

阿里云、云器科技、飞轮科技、数势科技、滴普科技、Alluxio、Denodo、ProtonBase、博文视点等合作伙伴的展位吸引了众多参会嘉宾前来交流,现场气氛热烈。

DataFunCon 2024·北京站首日活动圆满结束,各项议题精彩纷呈,参会者们收获满满。

明日,「数据治理,企业智能化的命脉」「大模型驱动运营与营销策略升级」「运维新蓝海:AIOps 落地实践」「大势所趋:大模型驱动搜索与推荐」「大模型塑造产品研发新范式」「全球化视野下的多云数据架构」「洞察业务本质:指标体系设计与应用」「信息挖掘新篇章:RAG 检索实践」「AI Agent 赋能场景革命」「实时洞察,湖仓之力」等分论坛精彩继续,期待在接下来的日程中,能够继续深入交流。

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存