百度智能云技术站

其他

如何将千亿文件放进一个文件系统,EuroSys'23 CFS 论文背后的故事

系统可以使用数据分片分裂、合并、均衡机制进行热点的疏散,这些机制非常平凡和成熟,产生的服务中断时间可以控制在秒级。分离式架构没有在更早的时间点出现是有其历史原因的。事务⻓期只能在单机上良好运作,直到
2023年5月25日
其他

AI 大底座,大模型时代的答卷

,支持昆仑芯和其他异构芯片的通信,支持慢节点和故障节点的感知。通过百度百舸的资源弹性和容错策略,将慢节点和故障节点剔除,并将最新的架构拓扑反馈给飞桨,重新进行任务布置,对应训练任务调配至其他
2023年5月9日
其他

云原生文件存储 CFS 线性扩展到千亿级文件数,百度沧海·存储论文被 EuroSys 2023 录用

引入单分片原子原语,提升单个分片处理性能的同时,缩短了元数据请求的处理耗时,消除了虚假的跨分片冲突。在上述设计的基础上,CFS
2023年5月5日
其他

大模型时代的异构计算平台

所示)在做静态图捕获、图优化、算子优化的过程中,我们发现这部分代码无法将动态图转换为静态图、或者代码有性能优化的空间。那么我们就会写一段替换代码,如中间图所示。左边是我们认为是可以被替换的一段
2023年2月23日
其他

万亿级对象存储的元数据系统架构设计和实践

级存储体系,其中冷存储是业界首发无需预先取回的适合归档数据存储的存储类型。对象存储中有两个基础的概念,一个是桶,相当于文件存储中的文件系统。另外一个是对象,相当于文件存储中的文件,一个对象在
2023年2月8日
其他

百度百舸 · AI 异构计算平台,加速自动驾驶模型迭代

容器的调度。在整个自动驾驶云平台以及自动驾驶的任务中,包括前面的数据处理和模型训练,甚至我们没有展开的仿真平台,都有大量的任务在并发执行。数百训练任务、数千仿真任务在并发执行是一个常态。所以我们
2023年1月5日
其他

视觉大模型训练和推理加速

的组合。这样的算子划分对于我们进行性能分析,定位性能瓶颈以及开展加速优化而言,都是非常重要的。以上就是第一部分的介绍。接下来,我们来介绍一下在训练上我们进行的一些优化工作,特别的,我们结合
2022年12月29日
其他

AI推理加速原理解析与工程实践分享

算法工程师,他们希望能将自己研发的模型高效的部署到线上,并为模型最终的效果负责。另外一类人则是基础架构工程师,他们负责管理异构算力集群,并为集群的资源利用效率负责。这两类人群的痛点分别如下:对
2022年12月27日
其他

AI 训练加速原理解析与工程实践分享

的来回搬运,极大降低了显存等待的时间;在某些场景中,可以通过算子融合,可以更充分的利用计算资源,提升资源和计算的效率。算子融合具体如何实现呢?一种方式,分析模型中的低效操作,专家经验手写融合算子。在
2022年12月22日
其他

云原生 AI 的资源调度和 AI 工作流引擎设计分享

最小资源量来判断是否满足调度条件。调度器在启动之后,便会周期性的开启一个调度会话,同时将当前集群的整体资源视图保存在会话的快照中,然后依次执行入队->资源分配->资源回收->资源抢占->回填等几个
2022年12月14日
其他

面向百度网盘的大规模数据面存储架构思考与设计

的数据校验机制包括三个方面,分别是实时校验、后台周期性校验和跨系统校验。第一个方面是实时校验,一个是数据在网络中传输时端到端的校验,再一个是数据在内存和磁盘之间存取时的校验,最后一个是
2022年11月28日
其他

更轻量的百度百舸,CCE Stack 智算版发布

加速套件通过数据集加速、训练加速和推理加速等,使得模型迭代效率和模型性能都得到进一步提升。提供多元芯片,支持昆仑芯等各类国产芯的虚拟化和资源调度。CCE
2022年11月3日
其他

AI 应用的全流程存储加速方案技术解析和实践分享

的区别是什么?在回答它们的区别之前,先看看它们的共同点,它们的共同点是都可以归类为所谓的软件定义存储。在它们出现之前,存储软件都是跑在磁盘阵列这种专业的硬件之上的,依靠硬件来解决数据可靠性的问题,但
2022年10月19日
其他

数据湖系列之二 | 打造无限扩展的云存储系统,元数据存储底座的设计和实践

海量数据对数据湖存储的扩展能力提出了极高的要求。元数据面作为云存储最核心、最底层的系统之一,直接决定了存储系统的扩展性。本文作为数据湖系列的第二篇,将为大家揭开元数据面存储底座的秘密,如何设计能够支撑存储容量的“无限扩展”。本文将底层的核心技术用通俗易懂的语言讲述出来,同时又不失专业性,不容错过。随着移动互联网、物联网、AI
2022年9月23日
其他

适合跑AI的云,一文看懂AI IaaS和AI PaaS

PaaS↓接下来我来详细拆解两大“推进器”看看它们是如何助推百度智能云的↓先看AI
2022年9月15日
其他

构建AI原生的智能计算基础设施,百度百舸·AI异构计算平台2.0发布

本文整理自2022智能经济高峰论坛·智能技术专题论坛的演讲当今企业面临数字化转型和智能化升级的挑战,作为承载了庞大算力的云基础设施,成为企业打破这种挑战的重要支撑。过去所说的算力,一般都是以CPU为主的传统算力。经过数十年发展,已经形成了庞大的市场规模。随着产业智能化升级的深化,大家再提算力的时候,注意力就会更多的放到以GPU等为主的智能算力上来。在过去几年,智能算力高速增长,已经快占据到算力总量的一半,和传统算力平分秋色。这给产业智能化提供了充足的算力支持。比如自动驾驶、生物医药、行业大模型、智算中心等行业和领域,走在了智能化升级的前沿。这些行业的快速发展,也将反过来拉动了智能算力规模的高速增长。算力和产业的相互影响,促进了双方都在快速发展,不断变化。这也说明需要构建新型智能计算基础设施,支持产业智能化的深化。那智能算力的未来应该是什么样子,才能更好地满足产业智能化升级的需求呢?百度智能云认为,随着AI应用场景更加丰富、超大模型不断的出现、云上AI任务的管理复杂性越来越高,芯片多元化、算力规模化、以及云原生化,将成为未来智能算力发展的重点方向。为了建设AI原生的云计算基础设施,我们去年推出了百度百舸·AI异构计算平台。基于产业智能化和智能算力发展大趋势,我们今年升级发布了2.0版本。百度百舸2.0在AI计算、AI存储、AI容器等模块上,能力进行了增强,功能进行了丰富,同时全新发布AI加速套件。AI加速套件,通过存训推一体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升AI作业速度。首先我们来看AI相关的计算和网络部分。为了提升集群通信效率,我们全新发布了弹性RDMA网卡。相比传统专用的RDMA网络,弹性RDMA网络和VPC网络进行了融合,使得用户的使用成本更低。相比传统的TCP网络,弹性RDMA的通信延时降低了2-3倍。同时,弹性RDMA还支持GPU
2022年9月7日
其他

面向大规模数据的云端管理,百度沧海存储产品解析

盘把数据从本地拷贝完成后,通过物流的方式寄送到百度智能云的机房,由我们的专业操作人员帮客户完成数据的上传。另外,可能有些客户的数据量比较大,此时也可以通过我们的专线服务来进行迁移。如在客户的
2022年8月15日
其他

超大模型工程化实践打磨,百度智能云发布云原生 AI 2.0 方案

版本提供了用户态和内核态两种实现,用户态能够实现进程融合、显存交换、编解码实例等,性能更好;内核态隔离性强,可以实现算力隔离以及显存隔离,用户可以根据自己的需求灵活选择。用户态方案:通过拦截
2022年8月4日
其他

面向大数据存算分离场景的数据湖加速方案

数据湖的存算分离,优势和挑战并存其中的关键技术有哪些,如何选择合适的的解决方案今天给大家分享一下百度智能云面向大数据存算分离场景的数据湖加速方案。下面我从四个方面去介绍。第一部分是介绍百度智能云大数据方案的概览;第二部分是介绍存算分离的优势和挑战;第三个重点会介绍我们百度的数据湖加速方案;最后是最佳实践。1.
2022年7月28日
其他

面向高性能计算场景的存储系统解决方案

高效数据流转有了这两类运行时存储之后,需要解决怎么在这两个系统和存储底座之间做数据流转的问题。实际上我们是通过两种机制来满足的:第一种机制是生命周期,这一机制跟对象存储分级存储体系类似。在一些场景如
2022年7月21日
其他

IDC 发布《云原生 AI -加速 AI 工程化落地》报告,百度智能云领跑云原生 AI 能力

专属镜像,算子加速等能力,提升资源利用率,加速模型开发效率。高级:拥有大规模集群管理经验及超大模型训练的实践能力,可应对复杂场景的生产级实践,全面加速大模型落地。也就是说,初级能力使得云原生
2022年7月14日
其他

双引擎 GPU 容器虚拟化,用户态和内核态的技术解析和实践分享

利用率。但模型在生产环境上线,会受到很多约束,这些约束导致利用率远远达不到我们的预期。下面我们用有限的篇幅总结一下主要的制约因素:模型特点:每个模型网络不同,调用的底层算子组合不同,很大程度上会影响
2022年7月13日
其他

低代码平台中的数据连接方式(上)

的代码可能是这样(React,代码示例来源:https://dev.to/antdp425/react-fetch-data-from-api-with-useeffect-27le)//
其他

数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

iOS,是一个相对封闭的体系,数据流入流出、使用场景约束较多,但胜在简单易用,封闭的体系控制力更强,较容易做存储格式、计算并行等性能上的优化,在一些要求极致性能的查询场景仍占据着主导地位。数据湖好比
2022年6月30日
其他

超大规模AI异构计算集群的设计和优化

现在业界有一个很大的趋势是训练规模越来越大的模型。从GPT-3开始,模型已经被推到了千亿参数量的维度。从2020年到现在,各个厂商也在不断推出更大参数量的模型,比如OpenAI的GPT-3、Google的Switch
2022年6月24日