查看原文
其他

NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算!

NVIDIA NVIDIA英伟达 2023-06-25

NVIDIA 计算架构团队和 NVIDIA 计算专家团队正在热招!


如果你对加速计算领域充满热情,并且希望与优秀的技术专家一起合作,那么这个机会将是你展现才华的优质平台,快来加入

NVIDIA 计算架构团队


热门岗位:

简历请投递至:

sh-recruitment@nvidia.com 


Deep Learning Performance Architect - Triton / LLM - TensorRT


工作内容:围绕深度学习端到端 AI 软件全栈,包括但不限于:训练框架、核心计算库、推理优化工具(比如 TensorRT)、AI 编译器、模型压缩等全栈软件栈,以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。


技能要求: 良好 C++ 编程,熟悉 AI 软件栈底层或者计算机体系结构,熟悉上层算法与 Python 是加分项。


工作地点:北京 / 上海


Deep Learning Performance Architect - TensorRT


工作内容:NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(比如,TensorRT 模型导入的流程和相关工具,图优化,算子的 CUDA 实现及代码生成,算子性能优化等),以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时,还将与 NVIDIA GPU 体系结构设计团队合作,来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。


技能要求: 熟练掌握 C++ 编程。


加分技能 / 经验: 度学习框架 / 深度学习编译器开发,性能分析 / 建模 / 优化相关的方法论 / 工具,计算机体系结构相关知识,CUDA kernel 开发 / 优化。


工作地点:上海 / 北京


Deep Learning Performance Architect - Operator


工作内容:针对不同 GPU 架构为 TensorRT、cuDNN、cuBLAS2、cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现,包含在线代码生成,代码融合等相关开发工作,以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。


技能要求: 良好 C++ 编程、熟悉计算机体系结构,有 TVM、MLIR 相关开发经验是加分项。


工作地点:上海 / 北京


Deep Learning Performance Architect


工作内容:围绕运算架构的全栈优化,包括但不限于:深度学习模型分析与预测、架构的性能分析、编译器性能分析,以及对主流运算架构和软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。


技能要求: 良好 C++ / Python 编程,熟悉 AI 软件或者计算机体系结构。


工作地点:上海

 

上下滑动查看更多职位详情


团队介绍



算力是 AI 时代的基础设施,而“后摩尔定律时代”,软硬件协同设计,才是加速计算的未来!


NVIDIA 计算架构团队历经 CUDA 并行编程模型从起步至今的所有阶段,其间参与了数代通用 GPU 计算架构及之上的包括 cuDNN、TensorRT、底层高性能算子、并行编程语言在内的加速软件栈的研发工作。该团队同时参与关键机器学习模型的算法及框架优化。


目前,该团队开放多个职位等你的加入!与我们共同书写下一代 AI 计算架构的未来!


NVIDIA 计算架构团队旨在推动算法、并行编程模型、核心加速软件库及 GPU 体系结构的协同设计和演化,在高速发展的深度学习算法与 GPU 硬件体系结构之间建立桥梁,并研发先进的软硬件协同的加速计算解决方案。


该团队从高性能计算、深度学习、自动驾驶等计算应用领域出发,跟踪学界、工业界前沿算法,并掌握其发展方向;通过对前沿算法(比如:神经网络结构)的深入理解,分析并提出芯片架构的需求,包含指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。


同时,承担基于架构的计算加速软件栈的开发及产品化工作。自底层加速核心算子开发及优化,基于硬件加速的并行编程模型的研发和编译,TensorRT、cuDNN 等核心加速库,直到上层训练框架、编译优化。以及,针对模型的混合精度、稀疏矩阵训练及量化方法开发。


上下滑动查看更多详情


团队发展



该团队基于硬件架构开发软件、编程模型、算法实现,通过算法、软件开发实践反馈并推动硬件架构优化,形成闭环,最终实现软件、编程模型及硬件架构的协同演化和迭代,达到极致计算加速的目标:


  • 建立下一代芯片性能模型、搭建芯片性能分析平台、调研下一代芯片新特性

  • 研发及设计新的加速指令、开发原型代码及编程模型、迭代优化下一代芯片架构

  • 跟踪下一代芯片新特性在应用中的落地实现(算子实现、编译等)

  • 开发集成最终软件产品库 - TensorRT,cuDNN

  • 优化训练框架(MLPerf 各项优化)

  • 开发混合精度、稀疏矩阵及量化方法

上下滑动查看更多详情

NVIDIA 计算专家团队


热门岗位:

简历请投递至:

sh-recruitment@nvidia.com 


Developer Technology Engineer


工作内容:


  • 包括大语言模型、生成式 AI、 推荐系统在内的深度学习、机器学习、数据分析领域新技术,以及编程实现、优化、模型、算法等方面的研究和开发;

  • 工业界实际应用的深度分析和优化,以保证该类应用在当前和未来的 NVIDIA 架构上都能保持卓越性能;

  • 为关键客户(业界头部公司)提供合适的 AI 解决方案;

  • 和 GPU / CPU / DPU 架构团队、研究团队、应用库和开发工具团队、系统软件团队等紧密合作来影响下一代产品架构、软件平台和编程模式的设计与开发;

  • 与世界各地的优秀同事一起助力深度学习技术在互联网、交通、金融、医疗等各领域的落地。


基本要求:


  • 计算机科学相关专业优秀硕士、博士毕业生;

  • 拥有良好的 C / C++ / Python 编程能力,良好的软件设计和开发能力;

  • (二选一)有并行计算编程基础,有 CUDA / C / C++ / Python 编程经验;

  • (二选一)拥有深度学习,机器学习领域的扎实理论基础,熟悉常见的深度学习网络或机器学习算法;

  • 良好的沟通能力、解决问题能力、时间管理能力和任务优先级管理能力;

  • 良好的英文技术文档读写能力和日常听说沟通能力。


工作地点:北京 / 上海 / 深圳 / 台北


上下滑动查看更多职位详情


团队介绍



NVIDIA 计算专家团队(DevTech)专注于各种深度学习算法、科学计算、数据分析和云端应用;在 NVIDIA 平台上进行性能分析以及优化,以充分发挥 NVIDIA  GPU / CPU / DPU,集群和数据中心强大的算力,使其达到,或者接近“光速”(SOL)水平的高级技术团队。


该团队与世界上技术领先的企业、高校、研究院所合作,共同推动和加速各项 AI 应用的落地。通过与用户深度紧密的合作,在大语言模型、生成式 AI、推荐系统、自动驾驶、自然语言处理、视频和图像理解、语音识别与合成,游戏等领域取得了累累硕果。该团队成为帮助客户发挥硬件平台和软件栈综合算力的中坚力量,能够为产品研发团队提供性能优化、设计原型和行业应用案例。


团队目标:在 NVIDIA 系统上,将各类应用优化到性能极致!


以打造大语言模型(LLM)应用为例,既可以直接使用 NVAIE / NVIDIA Nemo Service,也可以使用应用框架(Nemo FW、Triton+TensorRT、FT 等)来训练和部署模型,也可以基于 cuDNN / TensorRT 等软件库自己开发自己的框架,还可以基于 CUDA 来完全定制化自己的 pipeline,或者也可以混合采用这些方法。


如何选择一种合适的方法,其关键在于取得应用场景、性能要求、平台灵活性、时间成本、技术成本之间的平衡。NVIDIA 计算专家团队就是帮助客户和 NVIDIA 解决这个问题的。


上下滑动查看更多详情


团队发展



团队成员主要来自北京、上海、深圳、台北、首尔等地。


科学计算时代,当整个市场都还只关注于不断扩大通用硬件的规模时,NVIDIA 推出了加速计算 GPGPU 和 CUDA 编程模型。GPU 和 CUDA 这一全新的加速计算范式,为业界带来了源源不断的加速,但是也对应用的开发和优化提出了挑战。


在不断改进基础库性能的同时,NVIDIA 组建了一支特别团队,关注更为具体的应用。团队成员们不仅有深厚的计算机功底(从计算机体系结构、CUDA 编程,到编译原理、网络互连),还拥有各个领域的专业知识。这支团队不但可以从 GPU 编程方面对程序进行优化,更能从算法、模型方面提出改进建议,这使得 NVIDIA GPU 从科学计算领域脱颖而出。


随着深度学习的高速发展,该团队也在续写着相同的故事。对于 AI 中的神经网络,从代码和算法两个方面对其进行优化。代码方面涉及 CUDA、GPU 库,多机多卡网络互连等各个领域;而算法包括了模型压缩、量化、剪枝、混合精度训练、梯度压缩等,其最终目标都是在模型精度没有损失,或者损失不大的情况下,提高训练和预测的速度。


对于一个基于 AI 的实际工业项目,除了神经网络以外,系统内还包括了很多其他模块,神经网络在其中耗时只占 1/3 - 1/2。以互联网核心的推荐系统为例,其包括了召回、过滤、粗排、精排、离线训练、在线训练、ETL、特征工程等模块和流程。该团队致力于提供全流程的参考解决方案,让尽可能多的模块运行在 GPU 上,进而为应用带来显著加速。


上下滑动查看更多详情



点击 “阅读原文”,或扫描下方海报二维码,观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存