我的大模型岗位面试总结:共24家,9个offer
Datawhale干货
作者:Rooters@知乎,方向:大模型
前 言
1.智元机器人(Agibot)(拒)
2. 面壁科技/面壁智能(offer)
3. 光年之外 (简历拒)
4. 北京智源人工智能研究院(消失)
5. 360(简历拒)
6. Minimax (口头offer)
7. 昆仑万维 (offer)
8. 云从科技 (拒)
9. 阿里夸克(offer)
10. 衔远(offer)
11. 潞晨科技(Colossal-AI)(拒)
12. 蚂蚁(offer)
13. 腾讯(简历拒)
14. 小红书(简历拒)
15. 商汤(没消息了,被拒)
16. 百川智能(拒)
17. 百度文心(offer)
18. 科大讯飞(拒)
19. IDEA研究院(拒)
20. 好未来(offer)
21. 零一万物(拒)
22. 月之暗面(moonshot)(拒)
23. 阿里达摩院(新达摩)(offer)
24. 边塞科技 (拒)
总结
大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。
Research岗位对工程也有要求,工程端也需要了解模型。
感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。
楼主目前是:模型 > 框架 > 底层 > 其他。下一步想不放下模型的前提下,发展底层这边的能力(kernel等)
目前市场还看不太清,楼主对市场之前不太关注,也不感兴趣,技术宅。
RLHF很有前景的方向,强化学习如果经历够的话也要深挖一下。
大模型包总体给的相对高一些(同P)。
目前大多数公司还是集中在语言模型,偏研究的方向会有多模态的预训练这意思。
考点
多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
根据投的岗位,多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的,也大多研究岗位。楼主也少面了一些自动驾驶,RL啥的,不过结果不咋地。