其他
多模态交互组实习岗位
多模态交互组
组别介绍:
微软亚洲研究院语音组文档智能团队致力于OCR,智能文档处理领域前沿的研究与落地。团队的研究方向包括:通用文本检测与识别(OCR)、文档版面分析、表格结构识别、文档关键信息抽取、数学公式识别、文档版面与图像生成、文档图像预处理等。我们既投入学术前沿的研究与创新,也关注如何将技术落地到实际场景,赋能各行各业降本增效。
文档智能研究实习生
点击此处向上滑动阅览
工作职责
参与到组内各个研究项目中,具体职责包括但不限于:
调研、整理并定义新的研究任务,推动OCR 与文档智能领域的发展。
研究 OCR 与文档智能方向的最新进展,进一步提升各类任务的模型精度与效率。
设计新的多模态融合网络,用于解决诸多包含图像+文字的实际难题。
研究并改进视觉感知方向最前沿的技术,在文档领域的特定物体检测或识别问题进行创新。
研究图像生成方向的前沿进展 (如 GAN,Diffusion Model 等),研发高质量文档图像合成算法并探究其在各类任务的作用。
研发新一代文档图像预处理算法,包括但不限于文档图像纠正;水印、印章等噪声去除;重叠文字分离等场景。
任职要求
计算机、电子或相关专业(本科/硕士/博士)
熟练的编程能力、扎实的数据结构/算法基础
良好的沟通能力和团队协作精神,踏实的心态
加分项:有数学/物理/信息学竞赛方面的成绩;丰富的实习实践经历;在相关领域的知名国际会议或期刊发表过工作。
工作时间要求
能获得导师许可并保证至少六个月的实习。