首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
常德悲剧:让谴责无差别杀戮之声更加响亮一点
【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时
魏加宁:日本之所以能走出“大衰退”,靠的是不断改革,而不是所谓“积极的财政政策”
国内突然宣布,将大规模调整经济布局!又一朝阳行业悄然崛起,新一轮机会出现了!
这家头部券商资管总经理"迎新"
生成图片,分享到微信朋友圈
2023年10月17日
2023年10月17日
2023年10月18日
2023年10月18日
2023年10月19日
查看原文
其他
M2 Ultra可并行运行128个Llama 2 7B流
OSC开源社区
2023-10-17
收录于合集
#模型
32 个
#代码
118 个
#开源项目
43 个
出品 | OSC开源社区(ID:oschina2013)
llama.cpp 是开发者 Georgi Gerganov 用纯 C/C++ 代码实现的 LLaMA 模型推理开源项目。所谓推理,即是「给输入 - 跑模型 - 得输出」的模型运行过程。
最近 Georgi Gerganov 用搭载苹果 M2 Ultra 处理器的设备运行了一系列测试,其中包括并行运行 128 个 Llama 2 7B 流。
具体结果如下:
via https://github.com/ggerganov/llama.cpp/pull/3228
对于 M2 Ultra 的这番表现,有人给出了解释,M2 Ultra 或 M1 和 M2 系列 CPU 的速度之所以如此快,是因为执行推理任务的主要瓶颈是内存带宽,而不是计算能力。
而 M2 Ultra 的带宽为 800 GB/s,是普通现代台式机 CPU(双通道 DDR4-6400 带宽为 102 GB/s)的 8 倍。
如此高的带宽是苹果为 M1 和 M2 芯片设计了统一内存架构的结果。通常在笔记本电脑或台式机上,CPU 和 GPU 拥有不同的内存系统:高带宽(但容量相对较低)的显存和相对低带宽(但容量较高)的 CPU 内存。
苹果公司简化了这种方案,转而采用 CPU 和 GPU 共享的单一高带宽内存系统。这样做的唯一缺点是,这种高带宽内存必须紧密集成在 M2 封装中,因此最大容量受到限制。
例如,无论你花费 5,600 美元(最便宜的 Mac Studio 机型,配备 M2 Utra 和 192 GB 内存),还是 10,000 美元以上(最顶配 Mac Pro),都只能获得最大 192 GB 内存。但另一方面,如果你的工作负载(如推理)不需要超过 192 GB 的内存,那就再好不过了。
如此看来,苹果在这方面做出了正确的权衡。通常来说,在通用 CPU 的单插槽上实现 800 GB/s 的内存带宽,这在以前从未实现过。
相关链接:
https://arxiv.org/abs/2302.13971
https://news.ycombinator.com/item?id=37846387
往期推荐
23岁博士生修复Firefox中的22年 “幽灵老Bug”
ChromeOS就是Linux
男子受AI女友怂恿刺杀英国女王,被判入狱九年
这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存