查看原文
其他

多模态交互组实习岗位

微软学术合作 微软学术合作 2022-10-08

多模态交互组

组别介绍:

微软亚洲研究院语音组文档智能团队致力于OCR,智能文档处理领域前沿的研究与落地。团队的研究方向包括:通用文本检测与识别(OCR)、文档版面分析、表格结构识别、文档关键信息抽取、数学公式识别、文档版面与图像生成、文档图像预处理等。我们既投入学术前沿的研究与创新,也关注如何将技术落地到实际场景,赋能各行各业降本增效。

文档智能研究实习生


点击此处向上滑动阅览

工作职责

参与到组内各个研究项目中,具体职责包括但不限于:

  • 调研、整理并定义新的研究任务,推动OCR 与文档智能领域的发展。

  • 研究 OCR 与文档智能方向的最新进展,进一步提升各类任务的模型精度与效率。

  • 设计新的多模态融合网络,用于解决诸多包含图像+文字的实际难题。

  • 研究并改进视觉感知方向最前沿的技术,在文档领域的特定物体检测或识别问题进行创新。

  • 研究图像生成方向的前沿进展 (如 GAN,Diffusion Model 等),研发高质量文档图像合成算法并探究其在各类任务的作用。

  • 研发新一代文档图像预处理算法,包括但不限于文档图像纠正;水印、印章等噪声去除;重叠文字分离等场景。

任职要求

  • 计算机、电子或相关专业(本科/硕士/博士)

  • 熟练的编程能力、扎实的数据结构/算法基础

  • 良好的沟通能力和团队协作精神,踏实的心态

  • 加分项:有数学/物理/信息学竞赛方面的成绩;丰富的实习实践经历;在相关领域的知名国际会议或期刊发表过工作。

工作时间要求

能获得导师许可并保证至少六个月的实习。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存