首页
PATREON
提交文章
关于我们
🔥 热搜 🔥
1
潘石屹
2
我的反思
3
姬轩亦
4
记忆承载
5
百度
6
今日热点
7
微信公众平台
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
潘石屹
2
我的反思
3
姬轩亦
4
记忆承载
5
百度
6
今日热点
7
微信公众平台
分类
社会
娱乐
国际
人权
科技
经济
其它
这小姐到底啥背景,大圣你何必问那么细?
台湾学生自制“解放军部署地图”,曝光2000个中国大陆军事设施
国家安全局副局长8年内杀4人,3人被碎尸,被执行死刑!
四个恶魔折磨新婚夫妇长达八小时,费县“5·15”惨案告破!
喇嘛教用宋朝理宗皇帝的头骨作法器——被诅咒的帝国
zartbot
筛选:
全部
仅被删
排序:
热门
实时
其他
Tensor-103.3 Hopper Persistent Kernel
任何后续的调度请求都将返回一个无效的Tile.PersistentTileSchedulerParams它主要的功能是将计算任务的逻辑描述(例如,我需要计算100个128x256的矩阵乘法Tile)
2025年10月27日
其他
Tensor-103.2: Hopper GEMM
cute.nvgpu.warpgroup.SmemLayoutAtomKind.K_INTER在make_smem_layout_atom中即会生成相应的swizzle@dsl_user_opdef
2025年10月22日
其他
谈谈ESUN, SUE和UALink
这是使用以太网ScaleUP的根本逻辑:使用以太网ScaleUP的根本逻辑和取舍利用以太网大量供货来摊销专用硬件(以太网芯片/连接器/光模块/线缆等)的成本,
2025年10月18日
其他
Tensor-103.1: Basic GEMM
我们可以查看一下Copy_Op即原始的PTX指令cp.async.ca.shared{::cta}.global{.level::cache_hint}{.level::prefetch_size}
2025年10月18日
其他
Tensor-102: GEMV
在CuBLAS中提供了cublasSgemv函数进行GEMV运算.#include
2025年10月9日
其他
谈谈 Hierarchical Sparse Attention (HSA)
因此对于每个token选择的其它token计算attention的数量不会是一个固定的超参数Topk=2048,
2025年10月6日
其他
CuteDSL-2: 基本操作
https://github.com/NVIDIA/cutlass/blob/main/examples/python/CuTeDSL/notebooks
2025年9月30日
其他
学习一下DeepSeek-V3.2
图3展示了DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp的token成本如何随着token在序列中的位置变化而变化.
2025年9月30日
其他
谈谈阿里的AI Infra磐久128卡超节点
而Rubin-Ultra的机框又使用的是中背板的架构并且也没有使用正交的方式.其实在数通领域使用无中背板的正交架构已经是一个非常成熟的技术了.
2025年9月25日
其他
CuTe Layout代数-1: Overview
态射(Morphism)对于一个态射,我们可以把它看作一个X到Y的箭头,并记(domain)和(codomain).对于两个对象,所有以X作为domain,Y作为codomain的态射构成
2025年9月24日
其他
CuteDSL-1: Introduction
Compile和Triton都有很大的优势.GEMM的算子也都比cublas快算子融合上也比cublas+triton快不少另外还有一些FlashAttention-4的例子然后Tri
2025年9月21日
其他
谈谈UB, UALink以及NV和Intel的合作
另一方面这样的分离对于UALink和NVLink卷带宽也变得更加容易.一个很朴素的想法就是在XXLink上构建一个高速的IO-Switch在Rack-Level实现ScaleUP,
2025年9月20日
其他
详细分析一下Nvidia Rubin CPX
但是是否带有光线追踪的RTCore未知针对Attention计算中Softmax相关的指数计算SFU性能比B300提升了3倍从芯片规格来看,
2025年9月17日
自由知乎
自由微博
其他
学习一下Linear Layout
因为相应的wgmma指令要求操作数的每一行在每个线程中使用两个寄存器.为了优化性能可以在计算前预先在HBM(高带宽内存)中对高精度张量操作数(bf16)进行重排(pre-shuffle),
2025年9月15日
其他
从GPU缓存的视角看芯片设计和互连
然后同样用Orojenesis来分析构建ski-slope.但实际上im2col创建了一个临时的、冗余的矩阵,将卷积操作巧妙地转化为了标准的矩阵乘法,从而能够利用硬件上的高速
2025年9月13日
其他
谈谈芯片设计的一些取舍
这个时候的一些trade-off在前面一篇文章详细阐述过:《谈谈RDMA和ScaleUP的可靠传输》虽然直接通过Ethernet接ScaleUP看上去很不错,
2025年9月7日
其他
谈谈Google Falcon的可靠传输论文并对比分析CIPU eRDMA
接口,而无需修改应用程序.保持与为这些接口优化的现有应用生态系统的兼容性至关重要.这是一个非常务实的需求.一个技术无论多先进,如果需要推倒重来,改变整个应用生态,其推广难度都将是巨大的.支持现有的
2025年9月5日
其他
谈谈RDMA和ScaleUP的可靠传输
IBTA有一个野心勃勃的计划,同时替代主机内I/O的PCI,机房互联的以太网以及存储这些FiberChannel,同时也准备替代集群互联的例如Myrinet等技术,然后还设想了Composable
2025年8月31日
其他
Hotchip-2025:Day2 AI芯片和光互连
Fabric主要是有一个光的Interposer可以拉远然后硅光采用了EAM主要优势是在同样的Beachfront下带宽更大对于Chip-to-chip的带宽也可以增加很多相对于CPO的优势,
2025年8月27日
其他
Hotchip-2025: Day1网络篇
目测CX8还是有好几条无法满足的...集合通信能够保证95%以上的Fabric利用率丢包率5%的时候仍然能够保证90%的Goodput无需任何交换机的高级特性,
2025年8月26日
其他
谈谈Transformer的一些演进: UT,MoD,MoR...
并且大概率它们将会成为整个大模型架构产生重大变革替代Transformer的关键技术.这些也是我一直在写《大模型的数学基础》这个专题的原因.参考资料[1]
2025年8月25日
其他
大模型时代的数学基础(9)- SDPA和最优传输, 强化学习及信息几何的联系
这个支配势函数是连接前向传播优化与反向传播信息几何的关键桥梁.与Fenchel对偶的联系:使用拉格朗日对偶来寻找势函数是解决凸分析中更基础运算的程序性方法:Fenchel-Legendre变换.
2025年8月21日
其他
再来谈谈UltraEthernet的设计原则
Scope其实UEC这个图的定义比原来的ScaleUP/ScaleOut要好一些.我一直以来都在有这样一个疑问,
2025年8月17日
其他
从GPT-OSS谈谈大模型算法和Infra演进
attention的模型如何overlap是一个很好玩的事情.另外是对于不同的请求context-length在Agent场景也会存在很大的差异,
2025年8月7日
其他
同构视角下的异构计算: 谈谈AI的软硬件交付界面, GPGPU or DSA
最终1995年微软的Direct3D以行业常用的三角形像素填充作为标准..第二次失败大概是在2002年微软在DirectX9.0中定义了新的Shader
2025年7月19日
其他
全球首个A股金融智能体?
ReportWriterAgent,Critical_Thinking_Agent],)4.行情技术分析Agent行情分析Agent输出的报告如下所示,
2025年7月18日
其他
谈谈Kimi K2, 第一个开源的1T参数模型
https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/config.json[3]
2025年7月12日
其他
从ODCC夏季会议再来谈谈ScaleUP的一些进展
CableTray/液冷这些技术都平滑的用到了Eth-ScaleUP技术上.现场华擎工程师对于整个机柜的供电/液冷/CableTray/线缆等相关组件进行了详细的解析,
2025年7月1日
其他
关于3D Stacking DRAM GPU的一些想法
硬伟大似乎也有一个PPT的板本然后DeepSeek的一个论文也提到了这个事情:这几天有一个脑洞大开的想法,
2025年6月14日
其他
谈谈SDR-RDMA, 所谓的软件定义的可靠性
于是这群人就想到用DPA构造了一个软件定义的可靠传输...主要用了一个bitmap机制和一些基于纠删码(erasure
2025年6月9日
其他
再来谈谈ScaleUP和ScaleOut
无论是ScaleUP还是ScaleOut都一堆问题....而UB确实是做到了...这就是光互连的答案.期间廖博带来了一个UB-Mesh的模型,
2025年5月31日
其他
锐评某友商说传统云还在卖铁: 从金融的视角谈云计算及其流动性管理
如何对不同的算力提供方定价呢?实际上云原生不光是一个技术问题,本质上还是一个商业模式的问题,其核心是如何通过技术手段支持商业模式上的算力证券化交付,而交付算力又需要考虑?
2025年5月28日
其他
一个关于AI编程/Agent的讨论
React的JSX是典型的声明式UI表达,与大模型结合的优势:声明式代码更接近自然语言描述大模型更容易理解UI结构和组件层次从需求描述到代码实现的转换更为直接3.3
2025年5月25日
其他
谈谈NV在ComputeX Keynote
Alchip(世芯)/Marvell则是有一些ASIC定制的业务..而AsteraLabs则是PCIe/CXL/UAL/NVLink,反正能搞的都搞....其实,
2025年5月20日
其他
CUDA Green Context
https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__GREEN__CONTEXTS.html
2025年5月7日
其他
现代NVidia GPU架构
调度器将切换到另外一个Warp.另外关于寄存器文件中读取端口的可用性,发射调度器并不知道评估的指令是否有足够的端口在接下来的周期中无需停顿即可进行读取.
2025年5月5日
其他
民科: 预测一下未来五年大模型的架构?
不一定需要在模型内部有足够的可解释性而更多的期望在模型之间协作的过程中构建的高阶拓扑上获得更多的控制能力.实质上还是一个经典的分布式系统中数据路径和控制路径分离的方式.
2025年5月3日
其他
谈谈以太网GPU Scale-UP的工作EthLink
于是对以太网头进行了很多修改和舍弃.关于这个的讨论可以参考我差不多一年前的一篇文章《基于EthZ的以太网ScaleUP互联方案》友商定义的OEFH
2025年4月30日
其他
Test-Time ScalingLaw又失效了? 算力约束下的国产模型突破在何方?
说不定又是一个逼到绝路的柳暗花明...去年底的时候MCP发布时还随手写过一篇《抄袭与创新》文中有这样一段话本质上对现有的基于Transformer的自回归模型的天花板的观点在于其数学工具的局限性.
2025年4月27日
其他
高带宽处理器, 又在基于PNM卷访存密集型算子?
感觉很难的一点是既然HBM都用了,为啥不做大点直接变成一颗GPU呢?反正封装要支持4900GB/s的带宽和144GB容量的HBM,
2025年4月26日
其他
CUDA-Next: 基于任务的张量计算的DSL?
详细的NV-GPU几十年的发展可以看看下面这个专题《GPU架构演化史》很有意思的一个话题是GPU作为一个异构加速器本身也开始变得更加异构了...而这些异构器件伴随着深度学习所采用的张量规模扩大,
2025年4月26日
其他
谈谈腾讯DeepEP的优化
通过Atomic给他们做了一个NetDAM-Seq用于分布式事务的定序发号.《NetDAM-Seq:一秒5.68亿次的存算一体全局唯一单调递增ID发生器》吐个槽,
2025年4月24日
其他
再来谈谈GPU体系结构及互联
就像老黄会给你说:“ScaleUP比ScaleOut优先”...其实在美国有很多限制,例如极致的追求功耗以及在光上吃了一鼻子灰的GH200-NVL...说个相关的故事吧,
2025年4月20日
其他
从Sutton苦涩的教训来谈谈AI基础设施
network?》[3]RDMA最大的困境,在于如何解决Lossy和Out-of-Order的主要问题(后者包括多路径和重传),以及上下文爆炸的次级问题。而完全解决这几个问题的全世界放眼望去,
2025年4月15日
其他
谈谈GPU的内存模型及互联网络设计
详细的代码可以查看https://github.com/zartbot/tensorcore_gemm/blob/main/05_pipeline_gmem_to_smem.cuAsync
2025年4月13日
其他
谈谈AI时代的CIPU 2.0
驱动下的阿里云基础设施:技术创新与产品演进》.想起一年多前在《从金融的视角谈云计算》开篇有这样一段话:比尔盖茨曾说过:"Banking
2025年4月10日
其他
谈谈Llama4 和DeepSeek GRM
out-of-distribution)》[5]这个结论挺有意思的,也就表明softmax从根本上无法在所有可能的输入上维持稳健的推理行为.然后通过自适应的温度似乎可以?
2025年4月6日
其他
谈谈字节的Attention/Expert分离
当然最终的结果是带宽又能打满,变异系数又几乎为0,多路径打开和关闭延迟没区别,甚至开了由于单个QP可以在两个网口上传输延迟更低.然后在接收端ReOrder设计上规避了RoCE协议的缺陷,
2025年4月5日
其他
谈谈一个新的MoA模型架构DeepSick-4.1T
直接采用简单的MLP避免了复杂的Attn计算和KVCache的内存开销.该模型有41层,
2025年4月1日
其他
从GTC25谈谈GPU互联(修正版)
华为的UBMesh或者是类似于Tenstorrent/TPU这样的xD-Mesh和XD-Torus总觉得算子编排上和资源调度上还存照很多难题.同时个人希望能够基于标准的以太网来实现,
2025年3月31日
{{{deleted_alert}}}
{{classification}}
{{{title}}}
{{{preview}}}
{{nickname}}
{{ct}}
更多