其他
关于ChatGPT的一切;CUDA入门之矩阵乘;PyTorch 2.0发布|AI系统前沿动态
1.截止目前,关于ChatGPT的一切
https://lspace.swyx.io/p/everything-we-know-about-chatgpt?continueFlag=63aa7c6ee1fe81cb3908db6695296d03
https://zhuanlan.zhihu.com/p/589533490
https://mp.weixin.qq.com/s/NzmUphWdQDemu-sWwh4vTg
https://www.zhihu.com/question/570220953/answer/2786337522
链接:
https://mp.weixin.qq.com/s/8SlhtLY9mQWUOvnEa3Bn2A
https://mp.weixin.qq.com/s/levwBKhbp3dJAIslvqyZAQ
矩阵乘作为目前神经网络计算中占比最大的一个部分,其快慢会显著影响神经网络的训练与推断所消耗的时间。虽然现在市面上已经有非常多的矩阵乘的高效实现——如基于CPU的mkl、基于arm设备的 ncnn 与emll、基于CUDA的 cublas ——掌握了矩阵乘优化的思路不仅能帮助你更好地理解编写高性能代码的一些基本原则,而且许多神经网络加速领域进阶的技巧如算子融合都是与矩阵乘交互从而达到更高的性能。
由于矩阵乘的性能优化与两个矩阵的形状有着非常密切的联系,因此,为了降低本文的撰写难度(以及辅助读者更好的理解矩阵乘优化),本文将从一个CUDA 初学者的角度来阐述如何优化一个形状较大的正方形乘正方形的 FP32 矩阵乘。
链接:
https://mp.weixin.qq.com/s/rWWx0Uf4oin0kmtEjVXBqw
https://mp.weixin.qq.com/s/Ntv4x6cptrpYtJpybT2heA
链接:
https://mp.weixin.qq.com/s/zwZHX_8JibGIoL9OMkKsuw
链接:
链接:
链接:
链接:
直播现在约!!!
其他人都在看
李白:你的模型权重很不错,可惜被我没收了 单RTX3090训练YOLOv5s,时间减少11个小时 比快更快,开源Stable Diffusion刷新作图速度 OneEmbedding:单卡训练TB级推荐模型不是梦