数据、知识、智能组实习开放岗位
数据、知识、智能组
组别介绍:
微软亚洲研究院DKI (Data, Knowledge & Intelligence) Area 致力于人工智能、数据分析、数据交互。数据可视化的研究。探索全新的数据分析,展示,交互技术,让数据和数据中的发现故事被高效地理解、广泛地传播。数据智能是一个典型的交叉领域,综合了自然语言处理、多维数据分析、机器学习、数据可视化、人机交互、计算机视觉等多个领域。团队与微软核心产品(如Excel,PowerPoint等)深度合作,并常年在各个领域的顶级会议和期刊上发表具有影响力的论文。
表格预训练/语义结构理解/公式预测/表格问答研究实习生
点击此处向上滑动阅览
工作职责
表格预训练,探索Transformer等模型在半结构化数据预训练中的前沿探索;
表格公式预测,基于数据推理探索Excel公式的智能预测;
表格语义结构理解,探索DL和NL在半结构化数据理解领域的创新和应用;
表格问答,探索文本和半结构化数据的智能交互。
任职要求
编程/动手能力强;
有主动和深入的思考,可以提出有创新的想法并快速验证;
有扎实的机器学习/深度学习基础;
有论文撰写和投稿经验优先。
工作时间要求
能获得导师许可并保证至少四个月的全职(或接近全职)实习。
知识图谱研究实习生
点击此处向上滑动阅览
项目简介
主要研究知识图谱相关的技术,致力于提升基于知识图谱的智能问答系统性能。包括但不限于提升模型在不同领域的泛化能力,候选生成的准确性及模型语义解析的正确率。除了知识图谱相关研究,我们也探索如何有效结合预训练模型及无标注数据,增强模型的推理能力。
工作职责
知识图谱构建,包括但不限于长文本/多文档场景下具有领域迁移能力的信息抽取技术(g., 命名实体识别、关系抽取、共指消解)、知识表示学习、知识推理
基于知识图谱的智能问答,包括但不限于提出新的系统架构与推理算法、改善现有系统的性能、提升系统的泛化能力(g., 组合泛化、跨领域泛化、跨知识库泛化)、探索与预训练模型的结合方式等
任职要求
有较强的编程能力与快速学习能力,善于主动思考,勤奋努力;
有扎实的机器学习/深度学习基础,熟练掌握常见算法及框架;
有相关项目经历与实践经验者优先;
有论文撰写与投稿经验者优先。
工作时间要求
获得导师许可,保证至少 6 个月实习,每周不少于 4 天。
Cloud Architecture Research 研发实习生
点击此处向上滑动阅览
项目简介
云计算中每一个独立的服务,如计算虚拟化、云存储服务、分布式数据库等,都是复杂的分布式系统。这些服务(包括 IaaS, PaaS, SaaS 模式下各种服务)共同组成云计算的整体解决方案,成为一个复杂体系(System of System)。项目将通过代码分析技术,对系统架构进行研究,理解并优化全球领先的复杂云计算系统体系,从而进一步提升云计算服务质量。
工作职责
深入理解云计算平台、各类服务、系统特征,理解实际系统如何构建、运行,发现研究问题
完成项目相关的信息、数据收集、代码阅读、案例分析、工具架构定义、程序实现、测试部署、工具优化等工作
实现项目相关工程,实现高效、可用、可靠、可维护的代码
任职要求
计算机科学及相关专业背景优先,本科及以上学历在校学生;
两年以上C/C++/C#/Java/Python或者其它相关编程经验,熟悉K8s及微服务框架或有大型软件项目经验优先;
优秀的分析问题、解决问题的能力;
具备良好的团队合作精神;
有责任心,工作积极主动。
工作时间要求
能获得导师许可并保证至少6个月的全职/兼职实习。实习期间需为在校生。
Cloud Intelligence/AIOps Research 研发实习生
点击此处向上滑动阅览
项目简介
主要从事云计算服务智能、智能运维相关的研究工作,针对海量用户、大规模集群、复杂的系统架构对云计算带来的挑战,将一系列创新技术应用在云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景中落地。提升云计算服务质量、用户体验和工业生产力,并在人工智能、软件工程、软件系统等领域发表具有影响力的工作。
工作职责
和微软亚洲研究院数据、知识、智能组的研究员们一起参与全球领先的Cloud+AI研究,通过研究前沿机器学习算法、参与技术转化、发表论文,将人工智能应用到微软以Azure为代表的核心云计算产品中去。前端、后端、算法、科研,具体职责跟据个人特点可选。欢迎联系。一些工作内容包含:
深入理解云计算平台、系统特征,理解实际系统的痛点、难点,发现研究问题
与美国、中国的研究人员和产品开发团队密切合作,实现项目的研究目标
完成项目相关的数据收集、数据清洗、监督/半监督/强化学习模型开发、模型评估、模型部署等工作
实现项目相关工程,实现高效、可用、可靠、可维护的代码
任职要求
计算机科学、数据科学或相关专业背景优先,本科及以上学历在校学生;
两年以上 C/C++/C#/Java/Python, Pytorch, Tensorflow, MXNet, Scikit-learn 或者其它相关编程经验,熟悉 K8s 及微服务框架,有日志(log、trace)分析经验者优先
优秀的分析问题、解决问题的能力
具备良好的团队合作精神
有责任心,工作积极主动
工作时间要求
能获得导师许可并保证至少6个月的全职/兼职实习。实习期间需为在校生。
AI for Design 研发实习生
点击此处向上滑动阅览
项目简介
主要从事将人工智能与平面设计相结合的研究工作,探索使得平面设计更加自动化和智能化的深度学习模型和方法。这是一个跨领域的研究课题,涉及到深度学习、计算机视觉、自然语言处理、平面设计、软件工程等研究领域。
工作职责
积极跟进和关注深度学习、自然语言处理、计算机视觉的前沿研究
模型与算法设计和改进,数据的收集与处理,大规模模型的训练与调试,实验结果分析与总结,等等
撰写高水平论文
原型系统的实现
任职要求
相关专业硕士及以上全日制在读学生;
熟悉 Python,精通 Huggingface, Fairseq, DeepSpeed 等 DNN 框架与工具;
有较强的数学基础,较强的编程能力,能独立进行数据分析;
具备深度学习、自然语言处理、计算机视觉的相关知识;
需要对 GAN、CLIP、DALL-E、GPT、T5、BART 等工作及相关研究中的一个或多个非常了解;
拥有论文快速检索和阅读能力;
有在计算机视觉或 NLP 方向国际会议发表论文经历,或编程比赛经历的同学优先;
有技术类博客文章撰写习惯的优先。
工作时间要求
能获得导师许可,保证至少五个月的全职实习。
Trustworthy Semantic Parsing 研发实习生
点击此处向上滑动阅览
项目介绍
主要从事自然语言处理相关的研究工作,特别是基于深度神经网络的语义解析(包括 NL2SQL)方向,研究提高模型的可信任度(包括但不仅限于模型的鲁棒性、可解释性、可扩展性、社会平等,等等方面)的模型、算法和技术。
工作职责
积极跟进和关注自然语言处理和理解的前沿研究
语义解析模型与算法设计和改进,数据的收集与处理,模型的训练与调试,实验结果分析与总结,等等
撰写高水平论文
原型系统的实现
任职要求
熟悉 Python,精通 Huggingface, Fairseq, DeepSpeed 等 DNN 框架与工具;
有较强的数学基础,较强的编程能力,能独立进行数据分析;
具备机器学习、深度学习、自然语言处理(特别是对话系统)的相关知识;
拥有论文快速检索和阅读能力;
有在机器学习或 NLP 方向国际会议发表论文经历,或编程比赛经历的同学优先;
有技术类博客文章撰写习惯的可以优先。
工作时间要求
能获得导师许可,保证至少五个月的全职实习。
Reasoning and Compositional Generalization of DNN 研发实习生
点击此处向上滑动阅览
项目简介
近年来,深度神经网络特别是基于 Transformer 的预训练大模型取得了巨大进步,在很多方面取得了惊人的效果。但是,研究发现其推理和组合推广能力相对不足。本项目主要从事深度学习和自然语言处理相关的研究工作,致力于提高模型的推理和组合泛化能力,包括但不仅限于神经网络新架构设计,新的预训练方法,新的数据增强方法,模型推理和泛化机理研究,等等。
工作职责
积极跟进和关注深度神经网络和学习方法的前沿研究
模型与算法设计和改进,数据的收集与处理,模型的训练与调试,实验结果分析与总结,等等
撰写高水平论文
原型系统的实现
任职要求
相关专业硕士及以上全日制在读学生;
熟悉 Python,精通 Huggingface, Fairseq, DeepSpeed 等 DNN 框架与工具;
有较强的数学基础,较强的编程能力,能独立进行数据分析;
具备机器学习、深度学习、自然语言处理的相关知识;
拥有论文快速检索和阅读能力,喜欢接受挑战;
有在机器学习或 NLP 方向国际会议发表论文经历,或编程比赛经历的同学优先;
有技术类博客文章撰写习惯的可以优先。
工作时间要求
能获得导师许可,保证至少五个月的全职实习。
DNN Foundation Research 研发实习生
点击此处向上滑动阅览
项目简介
主要从事深度学习领域的基础研究,着眼于各种用于提升深度网络学习能力以及泛化能力的通用算法以及相关理论,包括深度模型的新架构设计,深度模型的新组件设计,深度模型的学习机理探究,深度模型的优化、初始化、及正则化,等等。特别的,我们的研究专注于探索深度学习的本质特性,而非特定应用层面的专属特性;我们的目标产出为具有较强普适性的算法和理论。
工作职责
进行深度学习领域的基础性研究,设计普适性技术用以提升深度模型的学习能力,在顶级会议和期刊上发表文章
深度模型的新架构设计:通过设计新的网络组件,新的网络结构,新的学习范式,用以提升模型的能力,包括但不限于预测准确率,小样本学习能力,组合泛化能力,等等
深度学习的优化,初始化,正则化:探索新的初始化方法,优化方法,以及正则化方法,提升模型训练的性能
深度学习机制探索:试图将深度学习的“黑盒”过程“白盒”化,解释或改进深度模型的学习过程,提高深度学习的可解释性,可控性,等等
任职要求
熟悉 Python,精通 Pytorch 或 Tensorflow;
具备机器学习、深度学习的相关知识;
拥有论文快速检索和阅读能力;
有在国际会议发表论文经历、ACM 或其他编程比赛经历的同学优先。
工作时间要求
能获得导师许可,保证至少五个月的实习且每周不少于四天。
Graph Neural Network Research
研发实习生
点击此处向上滑动阅览
项目简介
主要从事图神经网络相关的研究工作,着眼于图神经网络模型的设计与理解,致力于提高模型的泛化能力以及可解释性,包括但不仅限于图神经网络新架构设计,图模型普适性分析,基于图性质的问题空间划分,图迁移学习,等等。此外,基于对图模型的理解,我们也探索图网络在更广泛问题场景下的应用前景,用图网络技术赋能更多领域。
工作职责
积极跟进和关注图网络学习的前沿研究
进行图网络模型研究,包括设计新的图模型架构与学习算法,图模型可解释性研究,新领域下的图模型应用,等等
撰写高水平论文并在顶级会议和期刊上进行发表
任职要求
熟悉 Python,精通 Pytorch 或 Tensorflow;
具备机器学习、深度学习的相关知识;
拥有论文快速检索和阅读能力;
有在国际会议发表论文经历、ACM 或其他编程比赛经历的同学优先。
工作时间要求
能获得导师许可,保证至少五个月的实习且每周不少于四天。
前端开发研究实习生
点击此处向上滑动阅览
工作职责
前端开发(Web、移动应用),提供良好的用户体验
Restful API 设计与实现
快速原型开发
改进现有代码、性能优化
任职要求
计算机、电子或相关专业(本科/硕士/博士)
扎实的数据结构/算法基础
熟练的编程能力
快速学习能力
良好的沟通与合作能力,能用英语交流
具有 Restful API、HTML5/XML/CSS、Javascript 等方面经验者优先
有用户体验设计经验者更佳
NLP 与 Data Analytics 研发实习生
点击此处向上滑动阅览
工作职责
Semantic Data Analytics(智能语义数据分析)领域前沿研究与论文撰写:
Automation & Recommendation of Common Data Analysis
数据分析过程(如数据清理、关联分析、数据挖掘、可视化等)的自动化与推荐
基于数据的语义和分布,学习和推荐日常分析过程中的常见模式;
对多种形式(如编写程序、自然语言查询、界面操作互动等)数据分析意图的解析;
Model & Training Designs for Semi-structured Data
针对表格等半结构化数据相关任务(如分析推荐、问答与查询、实体识别、钓鱼检测等)的模型设计、预训练、表征学习与多任务训练;
针对结构化预测和组合泛化的深度模型与训练过程。
基于以上研究,参与微软核心产品AI算法设计和系统搭建:
Excel、Bing与Azure中表格数据的智能分析与可视化
Forms中在线问卷数据的挖掘与智能分析
任职要求
编程/算法/动手能力强,思维活跃,勤奋踏实,具备快速学习能力;
熟练掌握常见深度学习和机器学习框架;
对自然/编程语言的理解与生成、深度预训练模型、表征学习、知识图谱、强化学习等部分相关方向有深入了解和实践经验;
有大规模并行数据处理/深度学习实操、会议论文撰写投稿经验者优先。
工作时间要求
能获得导师许可并保证至少5个月的全职实习,2022年6月至2022年12月间入职。
Pre-trained Language Model and NL-to-Code 研发实习生
点击此处向上滑动阅览
项目简介
近年来,大规模预训练语言模型取得了巨大进步。本项目主要从事将大规模预训练语言模型技术运用到代码相关任务上的研究,包括但不仅限于提高代码生成的质量,新的预训练方法,新的代码场景,等等。
工作职责
积极跟进和关注预训练语言模型和代码相关的前沿研究
模型与算法设计和改进,数据的收集与处理,模型的训练与调试,实验结果分析与总结,等等
撰写高水平论文
原型系统的实现
任职要求
相关专业硕士及以上全日制在读学生
熟悉Python,精通 Huggingface, Fairseq, DeepSpeed等DNN框架与工具
有较强的数学基础,较强的编程能力,能独立进行数据分析
具备深度学习、自然语言处理的相关知识
拥有论文快速检索和阅读能力
有在机器学习、自然语言处理或软件工程方向的研究经历,或编程比赛经历的同学优先
有技术类博客文章撰写习惯的优先
工作时间要求
相关专业硕士及以上全日制在读学生
熟悉Python,精通 Huggingface, Fairseq, DeepSpeed等DNN框架与工具
有较强的数学基础,较强的编程能力,能独立进行数据分析
具备深度学习、自然语言处理的相关知识
拥有论文快速检索和阅读能力
有在机器学习、自然语言处理或软件工程方向的研究经历,或编程比赛经历的同学优先
有技术类博客文章撰写习惯的优先
自动数据清洗与数据质量研发实习生
点击此处向上滑动阅览
项目简介
表格数据(比如Excel 表格或是数据库)广泛存在于各个领域,在分析和决策过程中扮演着重要的角色。但是伴随着的数据质量问题始终是一个巨大的隐患,并且往往需要用户人工逐行检查,手动纠错。在这个项目中,我们希望能深入探索和设计智能算法来解决这个隐患,通过大数据和机器学习的方法来自动发现数据质量问题,进而自动修复错误数据,以解决数据质量这个长期困扰用户(上至数据分析师,下至普通人)的痛点。
这个项目是一个微软内部跨国家和跨部门(DKI@MSRA + DMX@MSR-Redmond+微软产品部门)的合作项目。项目中有多个不同类型的职位,包含研究型的职位来探索新型算法,出色的成果有机会发表于顶部会议。同时项目也会包含开发型的职位来将技术产品化。可以根据你的兴趣和擅长参与不同的环节(相对应的职责和要求技能也不同)。
工作职责
阅读文献,调研自动数据清洗和数据质量相关技术
数据收集处理,模型设计,实验迭代,结果分析,算法改进
快速原型开发,代码改进,性能优化
与导师团队合作,整理研究结果,发表顶部会议
任职要求
计算机、电子或相关专业(本科/硕士/博士)
扎实的数据结构/算法基础
最好对NLP,Database,或者 Programming Language 的技术有一定背景
熟悉常见的机器学习,数据挖掘工具框架
良好的沟通与合作能力
熟练的编程能力,熟悉python,c#
工作时间要求
能获得导师许可并保证至少五个月的实习。请务必下载并填写申请表(申请表链接:https://www.msra.cn/wp-content/uploads/2017/07/internship_application_form.xlsx)并将其与完整的中英文简历(PDF/Word/Txt/Html形式)一同发送至:MSRAih@microsoft.com,邮件标题中注明:数据、知识、智能组_数据质量研发实习生。要了解更多“明日之星实习生计划”,请访问:https://www.msra.cn/zh-cn/connections/academic-programs/tomorrowstars