英特尔AI PC两年大卖1亿台就靠它了!
12月15日下午,英特尔在中国北京召开了主题为“AI无处不在,创芯无所不及”的2023英特尔新品发布会暨AI技术创新派对,正式发布了代号为“Meteor Lake”的面向AI PC产品的全新酷睿Ultra处理器,这将是实现于英特尔方案的AI PC到2025年出货1亿台目标的关键。同时,在此次发布会上,英特尔还推出了代号为“Emerald Rapids”的面向服务器、数据中心的第五代至强可扩展处理器。
一、英特尔酷睿Ultra处理器:支持200亿参数大模型
英特尔酷睿Ultra处理器基于Chiplet架构,采用了全新的制程工艺及3D封装技术,并对CPU、GPU内核进行了大幅升级,同时还加入了面向AI的NPU内核,使得整体芯片可带来34TOPS的整体AI算力,可以支持200亿大模型在终端侧运行。
Chiplet+3D封装
据介绍,高端规格的英特尔酷睿Ultra“Meteor Lake”CPU当中使用多种不同制程工艺的Chiplet小芯片,包括基于EUV技术的Intel 4 制程工艺的Compute Tile,台积电5nm的GPU Tile,台积电6nm的SoC Tile,台积电6nm工艺的I/O Tile。
具体来说,Meteor Lake的Compute Tile 采用了 Redwood Cove P-Core 和 Crestmont E-Core 混合内核架构,H/P 系列和 多达 14 个核心 (6+8) U 系列 CPU 最多 12 核 (4+8)。
SoC Tile拥有全新的低功耗island E核心(LP-E核心),并首次加入了集成式的神经网络处理器(NPU)可以为PC带来高能效的AI加速和本地推理体验。同时,还支持WiFi-6E & WiFi-6E,8K 10bit HDR 视频的编解码和AV1 编码,支持HDMI 2.1和DP2.1,集成了内存控制器等。
GPU Tile 核显从 Xe LP 升级到 Alchemist Xe LPG,拥有8个Xe内核,多达 128 个 EU,相较于上一代的 Iris Xe 核显每瓦性能翻倍,还拥有8个采样器,4个像素后端,8个光线追踪单元。同时,新一代核显有更高的频率,同等电压下的频率直接可以冲击到 2GHz 以上。新核显还针对 DX12U 进行了优化,支持倍帧功能,支持新特性“Out of Order Sampling”。此外,英特尔还集成了全新的 Xe 媒体引擎。
I/O Tile则支持高达 LPDDR5X-7467 和DDR5-5200 、支持最高 96 GB DDR5 和64 GB LPDDR5X 容量、拥有用于独立 GPU 的 x8 PCIe Gen 5 通道(仅限 H 系列)、三个 x4 M.2 Gen 4 SSD 接口、四个 Thunderbolt 4 端口等。
可以看到,该芯片当中除了核心的计算Tile是有英特尔自家代工,其他的均由台积电代工。这似乎是因为其他Tile采用台积电的工艺制程性价比更高,产能供应业更好。
所有这些 IP 均使用英特尔 Foveros 3D 封装技术进行封装,这也使得Meteor Lake成为了首个基于英特尔Foveros 3D 封装技术的客户端处理器。
CUP性能领先竞品
英特尔称,在相同功率下的单线程测试中(SPECrate 2017 INT),其Core Ultra 7 165H CPU比AMD Ryzen 7 7840U性能高出了12%,而i7-1370P的性能比Ryzen 7 7840U高出了21%(因为它提供了高达5.20 GHz睿频),高通8cx Gen 3的性能则只有Ryzen 7 7840U的一半。
在另一个比较中,英特尔展示了Core Ultra 7 165H和AMD Ryzen 7 7840U相同功率(28W)下的多线程性能,在笔记本电脑的电源计划都设置为“平衡”模式下,Core Ultra 7 165H 比 Ryzen 7 7840U 领先 8%,电源模式设置为“最佳性能”时,Core Ultra 7 165H 比 Ryzen 7 7840U 领先 11%。
英特尔还对比了多媒体性能,英特尔Core Ultra 7 155H 与其他三种芯片以28W TDP进行测试。结果显示,与AMD Ryzen 7 7840U相比,Core Ultra 7 155H 在UL Procyon视频版套件中的速度快了31%,在PugetBench for PremierPro Pro中快了41%,在PugetBench for Lightroom中则快了19%。
GPU性能提升了1倍
英特尔Core Ultra系列也大幅提升了GPU性能,集成了性能更强的Alchemist Xe LPG iGPU,并支持了如XeSS、DX12 Ultimate等非常多的新特性,大幅推升英特尔轻薄笔记的图形和游戏体验。英特尔声称,Arc Alchemist Xe LPG iGPU在不使用任何升级的情况下,在1080p的分辨率下,性能比第13代酷睿i7芯片最高提高了一倍。
为了进行比较,英特尔在一台配备Core Ultra 7 165H处理器、LPDDR5-6400内存,并设置为基本PL1功率32W的MSI Prestige 16 笔记本电脑,一台配置为32W PL1并配备LPDDR5-4800内存的Core i7-1370P笔记本电脑,以及两台配置为LPDDR5-6400内存并具有类似TDP额定值的AMD Ryzen 7 7840U笔记本电脑。在测试的18款游戏中,Core Ultra 7 165H的Arc Xe LPG GPU在原生1080p的游戏中的表现居于领先地位,比AMD Ryzen解决方案提升了约5%。
在相同的28W TDP下,英特尔Core Ultra 7 165H在众多游戏中的平均游戏性能比Ryzen 7 7840U快了10%。最大的提升来自《死亡之光2:保持人性化》提升了70%。
英特尔采用了XeSS升级技术,还可以帮助游戏进一步提高分辨率,该技术利用DP4a在各种游戏中比原生分辨率平均提高了39%。
AI算力达34TOPS,支持200亿参数大模型
英特尔Meteor Lake CPU的另一个关键升级就是NPU,它在新兴的人工智能PC领域发挥着重要作用。目前包括英特尔、AMD、苹果和高通在内的所有主要PC芯片制造商都有推出集成了NPU内核的PC处理器。
据介绍,Meteor Lake 最新的AI引擎,结合NPU、CPU和GPU,将可提供34TOPS的整体AI算力,并支持FP16等数据类型。
根据英特尔公布的对比数据显示,与AMD Ryzen 7 7840U相比,英特尔Core Ultra 7 165H在GIMP Stable Diffusion性能方面提高了5.4倍,在Stable Difference A1111性能方面提高了3.2倍,在Adobe Premier Pro(ColorGrade+场景编辑+导出)方面提高了1.7倍,在Adobe Lightroom Classic(AI照片编辑)方面提高了1.5倍,DaVinci Resolve(渲染+AI遮罩+导出)的性能提高了1.2倍,Wondershare Filmora(A1FX+预览+导出)性能提高了1.1倍。
与英特尔Core i7-1370P相比,Core Ultra 7 165H的Generative AI(生成式AI)性能提高了70%,同时提供了UL Procyon AI(NPU Offload,INT8)的2.5倍INT8功率效率,在Zoom视频会议中可降低38%的功耗。
英特尔还在对比中将其OpenVINO框架与WinML框架进行了比较,并展示了Meteor Lake在广泛的数据类型中的性能。英特尔表示,他们将继续使用新的工具和框架开发人工智能软件堆栈。
在北京发布会现场,英特尔还联合百川智能展示了基于“Meteor Lake”酷睿Ultra处理器的笔记本电脑在本地运行百川智能的130亿参数的AI大模型生成文字。同时,英特尔还展示了酷睿Ultra笔记本电脑1秒超快生图,6秒生成高质量图片的能力。
英特尔还宣布,酷睿Ultra处理器目前已经可以运行200亿参数的大语言模型,这也意味着其可以提供更为强大的生成式AI功能的体验。
高性能低功耗混合架构,带来更高能效表现
Meteor Lake的CPU采用了 Redwood Cove P-Core 和 Crestmont E-Core 混合内核架构,H/P 系列和 多达 14 个核心 (6+8) U 系列 CPU 最多 12 核 (4+8)。同时,SoC Tile拥有全新的低功耗island E核心(LP-E核心)。这也使得Meteor Lake的CPU拥有了三类内核:P核、E核、LP-E核,可以针对不同类型的工作负载进行灵活调用。
英特尔称,全新的高性能低功耗混合CPU架构,提供了英特尔号称的迄今为止最节能的客户端处理器。比如在网络视频播放方面,功耗可降低25%;视频会议功耗可降低38%;日常办公应用续航可提升36%。
英特尔还提供了Core Ultra“Meteor Lake”CPU的功率效率数据。在其图表中,英特尔比较了不同功率下的Core Ultra 7 165H的性能表现,可以看当该芯片在突破20W后,在2017年SPECrate(Int)基准测试中,该芯片在相同功率下比苹果的M3更快,在相同功率条件下也比AMD的Ryzen 7 7840U快了约11%。
英特尔还研究了特定于工作负载的功率表现,在这里我们可以看,在同样的28W超薄设备上,在空闲模式下,英特尔Core Ultra 7 165H的功耗要AMD Ryzen 7 7840U低了79%。
另外,与以前的所有芯片相比,英特尔Core Ultra 一大优势来自于可用于视频播放的LP E核的使用,与上一代相比,功耗降低了25%。
Core Ultra产品阵容
英特尔酷睿Ultra “Meteor Lake”产品阵容分为两个部分:高端 Core Ultra 100H 和低功耗 Core Ultra 100U。
英特尔酷睿 Ultra 100H 系列系列的旗舰 SKU 是 Intel Core Ultra 9 185H,具有 16 个内核,采用 6+8+2(P-Core / E-Core / LP E-Core)配置,具有 22 个线程。该芯片配备 24 MB 的 L3 缓存、3.8 GHz 的主频和 5.1 GHz 睿频。该芯片还配备了一个 Intel Arc GPU,具有 8 个 Xe 核心,运行频率为 2350 MHz。TDP 保持在 45W 的基础功率和 115W 的最大涡轮功率。
Intel Core Ultra 7 165H 和 Core Ultra 7 155H,具有与 Core Ultra 9 185H 相同的核心配置,但具有较低的时钟速度和 TDP。Core Ultra 7 155H 拥有 3.8 GHz主频,5.0 GHz睿频 ,而 Core Ultra 7 155H 则以 3.8 GHz 主频,4.8 GHz 睿频运行。这两款芯片的额定基本功率均为 28W,MTP 可设置为 64W 或 115W。
最后,还有 Core Ultra 5 135H 和 Core Ultra 5 125H,它们采用 4+8+2(P-Core / E-Core / LP E-Core)配置的 14 个核心,具有 18 个线程和 18 MB 的 L3 缓存。Core Ultra 5 135H 以 3.6 GHz主频和4.6 GHz 睿频运行,而Core Ultra 5 125H 则以 3.6 GHz主频和4.5 GHz睿频运行。这些芯片提供具有 7 个 Xe 核心的 Arc GPU,主频为 2200 MHz,TDP为28w ,MTP为64/115W。
英特尔酷睿 Ultra 100U 系列包括六个 SKU。包括 Core Ultra 7 165U、Core Ultra 7 164U 和 Core Ultra 7 155U 采用 2+8+2(P-Core/E-Core/LP E-Core)配置中的 12 个核心,具有 14 个线程、12 MB 的 L3 缓存以及具有 4 个 Xe 核心的 Arc GPU。最高时钟速度的额定值为 3.8 GHz 基本频率和 4.9 GHz 增强频率,而 TDP 的额定值为 9/15W ,MTP为 30/57W。
Intel Core Ultra 5 系列还提供相同的 CPU 和 GPU 配置,并提供 Core Ultra 5 135U、Core Ultra 5 134U 和 Core Ultra 5 125U 型号。这些是入门级芯片,配备精简的 GPU,最终仍比第 13 代芯片快近 50%。
所有芯片都支持 DDR5-5600 和 LPDDR5/x-7467 内存,但 164U/134U 仅支持 LPDDR5/x-6400 内存。该平台本身将支持最新的I/O技术,如TB4、WIFI 7、蓝牙5.2等。
英特尔透露,首批Core Ultra 7和 Core Ultra 5 “Meteor Lake”CPU已经开始上市。但Core Ultra 9系列CPU则将会于2024年1月上市,因此在2024年CES展上应该会有更多的细节。
在北京的发布会上,英特尔合作伙伴联想也宣布,其基于英特尔酷睿Ultra处理器的笔记本电脑已经于12月15日下午15:00正式上市。
二、第五代至强可扩展处理器:AI推理性能提升42%
代号为“Emerald Rapids”的第五代英特尔至强可扩展处理器也同样带来了全面的提升,相比上代至强平均性能提升了21%,能效提升了36%,AI推理性能提升了42%,总拥有成本降低了77%!
最高64核心,整体性能提升21%、AI推理性能提升42%、总拥有成本降低77%!
据介绍,第五代至强(Xeon)延续了上代的Intel 7制造工艺、Raptor Cove P-Cove架构、LGA4677封装接口,但在布局设计、部分核心规格上做了升级和增强。
首先在布局设计上,相对于第四代至强的4 Tile Die设计,64核旗舰级的第五代至强采用了2 Tile Die 设计(英特尔将其称之为XCC),这样做有几个好处,即更少的模块意味着更少的数据移动,从而可以降低功耗。不过,虽然Tile的数量更少了,但在物理面积上也更大了。通常情况下,更大的面积意味着更低的产量,但Sapphire Rapids和现在的Emerald Rapids中使用的Intel 7工艺技术在这一点上已经相当成熟。
64核旗舰级的第五代至强每个Tile都通过位于两个核心和缓存阵列之间的模块化裸片结合连接,每个Tile内拥有35个核心(其中3个是禁用的),每个Tile上还拥有2个内存控制器,支持高达5600 MT/s速度的DDR5 DIMM、3个PCIe控制器(共6个)、2个UPI(共4个)和2个加速器引擎(共4个)。
对于较低核心数量的第五代至强处理器,英特尔则继续采用单芯片结构,英特尔称之为中等核心数的芯片(MCC),最多可以有32个核心。还有一种名为EE-LCC的更小的芯片,适用于多达20个核心。
相比第四代至强来说,第五代至强核心数量由上代的最高60核提升到了64核,并且提供了高达320MB的缓存池,几乎是上代112.5MB的三倍,相当于每核心从1.875MB增至5MB。同时,第五代至强还支持更快的DDR5-5600速度,单路最大容量还是4TB,连接通道则还是80条PCIe 5.0,还支持20 GT/s(千兆传输)带宽的Intel UPI 2.0。
英特尔表示,与第四代至强相比,第五代至强CPU所能提供的平均性能提升了21%,每瓦平均性能提升36%,TCO(典型的5年刷新周期的总拥有成本)降低了77%。
在AI能力上,之前的第四代至强就有内置了AMX AI加速器,第五代至强又进一步提升了turbo频率,在某些人工智能推理负载中性能达到了四代至强的高达1.42倍,同时至强目前仍然是唯一一款拥有MLPerf训练和推理基准性能测试的通用CPU。
根据英特尔之前公布的数据显示,旗舰级第五代64核的Xeon 8592+与前代56核第四代Xeon 8480+相比的AI基准测试,Xeon 8592+在AI语音识别和LAMMPS基准测试中获得了1.4倍的增益,同时在FFMPEG媒体转码工作负载中也获得了1.2倍的增益。
此外,第五代至强还能够支持运行200亿参数的大语言模型(LLM)。随着GPT-4、Meta的Llama 2和Stable Diffusion等大语言模型的兴起,英特尔也在推动其至强处理器对于相对较小规模的大模型的支持能力,对于这类工作负载,内存带宽和延迟是主要因素。虽然第五代至强没有整合HMB,但是其也有5600 MT/s DDR5的帮助,虽然速度要差一些,但是已经可以满足一些较小规模的大模型的性能需求,同时在成本上也是远低于那些高昂的AI加速卡。
英特尔表示,在使用2S 五代至强平台上运行GPT-J 6B模型(60亿参数),它可以实现在大约25毫秒下完成一个Token的处理。不过,对于运行更大的Llama 2 13B模型时,其平均需要的时间则要提升至62ms,但仍远低于100毫秒。另外,有报道显示,目前五代至强已经能够在运行200亿个参数的大模型上实现可接受的延迟。
同时,在第五代五代至强上,QAT快速助手、DLB动态负载均衡器、DSA数据流加速器、IAA存内分析加速器等也依然存在,并且都可以按需付费开启。
客户应用实例方面,IBM watsonx.data平台的网络查询吞吐量提高了2.7倍,Palo Alto Networks的基于深度学习模型的威胁检测性能提升了2倍,Gallium Studios游戏工作室Numenta AI平台的推理性能比GPU云实例提高了多达6.5倍。
拥有28款SKU
在SKU方面,英特尔第5代至强CPU仅可扩展到1S和2S系统,4S和8S配置不在产品阵容中。其中,旗舰级的Xeon Platinum 8592系列有三种版本,Xeon Platinum 8592+ 用于通用解决方案,Xeon Platinum 8592Q用于液冷和通用解决方案、Xeon Platinum 8592V用于云优化系统。该芯片共有64个内核、128个线程、高达3.90 GHz的睿频、320 MB的L3缓存和385/350/330瓦的TDP。芯片的价格大约在11000美元到12000美元之间。
第五代Xeon Gold系列SKU当中,Xeon Gold 6558Q是最快的SKU,因为它是6548Y+的液冷版本的变体。该芯片有32个内核、64个线程、高达4.1 GHz的睿频、60 MB的缓存和350W的TDP。Xeon Gold 6554S和6530仍然是Gold细分市场中仅有的缓存超过100MB(分别为180和160 MB)的SKU。阵容从8、16、24、28、32、36核不等。
第五代Xeon Silver系列,拥有五个SKU,其中Xeon Silver 4516+最强,拥有24个内核、48个线程、高达3.7 GHz的睿频、45 MB的L3缓存和185W的TDP。所有第五代Xeon Silver SKU均支持DDR5-4400,拥有8、12、16和24核。
总体来说,五代至强拥有60、56、52、48、36、32、28、24、16、8核心等不同配置,相比四代至强取消了44、40、20、18、12、10核心版本,SKU型号总数也从55款之多精简到28款。第五代至强的最高加速频率范围从1.9-4.2GHz不等来到了3.4-4.1GHz,虽然极限频率低了100MHz,但是总体大大提升,基准频率也从1.7-3.7GHz不等提高到了1.9-3.9GHz。随着性能的提升,第五代至强的整体功耗范围也提升到了150-385W,上代是115-350W。
下一代的Sierra Forest和Granite Rapids
需要指出的是,第五代至强“Emerald Rapids”系列将是为Eagle Stream平台设计的最后一款芯片,之后英特尔便会将至强产品线拆分为与竞争对手类似的注重高性能的全P核和注重高能效的全E核两条产品线。
明年上半年,英特尔将推出基于全新Intel 3制造工艺,纯E核架构的Sierra Forest,也是至强系列第一次引入E核,最多做到288核心288线程。紧随其后的是同样Intel 3制造工艺,纯P核设计的Granite Rapids,但核心数量等规格未披露,将于2024年下半年推出。
根据英特尔的预告,其未来的Granite Rapids Xeons将在“Intel 3”节点上制造,这些芯片将添加更多的内核、更高的频率、硬件加速,并支持136个PCIe通道,12个8800 MT/s MCR DIMM内存通道,内存总带宽可提高到大约845 GB/s,这将大大有助于LLM推理性能。英特尔声称其人工智能工作负载提高了2-3倍,内存吞吐量提高了2.8倍,DeepMD LAMMPS人工智能推理工作负载提升了2.9倍。
小结
正如本次英特尔发布会主题“AI无处不在,创芯无所不及”,英特尔此次推出的酷睿Ultra处理器和第五代至强可扩展处理器均全面强化了AI方面的能力。特别是酷睿Ultra被英特尔寄予厚望,希望其能够推动PC市场的革新。
根据TechInsights 的数据,AI PC将带动2024 年全球笔记本电脑出货量同比将比增长 11%。Canalys的预测显示,2024年PC出货量有望同比增长8%至2.67亿台。其中,AI PC占比将达19%,接近5100万台。
英特尔此前也表示,它计划到2025年在客户端PC中推出超过1亿台AI PC,同时与100多个ISV合作伙伴合作,通过其OpenVINO生态系统提供300多个ISV功能,这些功能具有广泛的功能、开放和跨供应商支持,以及方便的开发者支持。
编辑:芯智讯-浪客剑
投资100亿美元!美国建High-NA EUV研发中心,意欲何为?
国产化率仅3%?美日荷限制之下,这家韩国检测设备商在中国赚大了!
某知名品牌未上市样机被泄露,松山湖公安成功破案!或与Mate60有关!
英特尔IEDM2023:3D堆叠/背面供电/背面触点/DrGaN助力摩尔定律推进
华虹集团接手成都格芯晶圆厂:注册资金228亿元,规划月产能3万片!
特斯拉开放Cybertruck 48V系统设计资料!福特CEO:真是谢谢了!
行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116