查看原文
其他

上海AI实验室大模型数据基座团队|全球招聘

Shanghai AI Lab 上海人工智能实验室 2023-09-21

上海人工智能实验室大模型数据基座团队(OpenDataLab团队)作为人工智能数据领域的探路者和开源数据社区的倡导者,围绕大模型数据开展多项前沿技术探索,构建面向大模型研发全流程的数据平台及大模型时代数据管理体系该团队建设的浦数人工智能开放数据平台OpenDataLab是AI大模型时代面向开发者的新一代超大规模、高质量、多模态数据开放平台,以统一标准构建开放数据集互通互联网络,致力于引领 AI 大模型时代数据的开放共享。
现针对以下岗位招募人才:
  • 语言大模型算法青年研究员
  • 多模态大模型算法青年研究员
  • 搜索引擎算法工程师
  • 数据采集与处理工程师
  • 数据产品经理

(相关岗位具体内容可上下滑动查看)

语言大模型算法青年研究员(社招、校招)

职位描述:

参与实验室书生·浦语大语言模型(InternLM)的数据准备、模型训练、模型评测等工作,构建新一代高质量的大型语言数据集,工作内容包括:

1.基于大规模网页、代码、论文、书籍等数据,复现大模型数据相关论文,并在此基础上制定更加严格的数据质量标准,对训练数据进行分析和分类,评估数据质量,解决数据主题分布、内容合规、反毒性、反偏见等问题;

2.构建Data-Centric数据闭环,探索在固定模型和评测情况下提高大模型数据语料质量的路径,包括持续优化数据质量,研究数据和模型的Scaling Law、研究数据配比、数据混入策略与混入时机;

3.围绕更具体细分类数据(如CC数据集、代码、论文、书籍等)构建相应大模型的数据-训练-评测链条,并针对细分类数据建立质量评估与优化体系,促进细分类数据质量提升。


职位要求:

1.计算机/数学/统计学/模式识别等相关专业本科及以上学历,拥有博士学位者优先;

2.曾发表顶会论文,拥有大模型开发经验及一线互联网公司NLP算法开发经验者优先;

3.具备快速阅读和复现论文的能力,能够系统性对比研究领域的相关成果,并制定改进计划;

4.熟练掌握Python/C++等语言,熟悉Pytorch、Tensorflow等常用深度学习工具,熟悉常用数据结构及算法;

5.对数据结构和算法有深入理解和研究,对算法有较强的实现能力者优先;

6.拥有强烈的上进心和求知欲,善于学习新事物,渴望用技术改变未来;

7.具备优秀的分析和解决问题能力,良好的团队合作精神及沟通意识。


多模态大模型算法青年研究员(社招、校招)

职位描述:

参与实验室多模态大模型的数据准备、模型训练、模型评测等工作,构建下一代超大规模的多模态数据集,工作内容包括:

1.建设对标LAION-5B、LAION-COCO、MMC4、InstructBLIP、LLaVA等多模态训练数据集,并在此基础上进一步提升数据质量和多样性;

2.构建Data-Centric数据闭环,探索在固定模型和评测情况下提高多模态数据质量的路径,包括图文数据质量、研究数据和模型的Scaling Law、研究数据配比、数据混入策略与混入时机;

3.检测并提高大模型数据内容安全性。


职位要求:

1.计算机/软件工程等相关专业本科以上学历,拥有博士学位者优先;

2.熟悉计算机视觉、多模态领域的相关研究工作和算法,拥有发表顶会论文、大模型研究工作、知名竞赛获奖、顶级研究机构或一线互联网工作经验者优先;

3.熟练使用Python、Pytorch和CUDA等语言及工具,具备快速阅读和复现论文的能力,能够系统性对比研究领域的相关成果,并制定改进计划;

4.具备优秀的分析和解决问题能力,良好的团队合作精神及沟通意识。


搜索引擎算法工程师(社招)

职位描述:

 负责对海量互联网数据进行分析处理,工作内容包括:

1.对网页数据的进行排序,解决基础检索、网页质量、内容相关性、意图理解、内容权威性及时效性等问题;

2.从海量网页中,筛选出优质的资源,提升数据收录效率和数据多样性;

3.从网页数据中提取有价值的信息,进行结构化字段提取、智能摘要生成。


职位要求:

1.本科及以上学历,具有搜索业务3年及以上工作经验;

2.熟悉自然语言处理、机器学习、模式识别等常用算法,在自然语言处理方向有深入实践;

3.熟练掌握Python/C++等语言,熟悉PyTorch、Tensorflow等常用深度学习工具,熟悉常用数据结构及算法;

4.具备良好的学习能力,能够跟进领域内最新技术研究成果,并结合应用场景快速实验和调优;

5.具备优秀的分析和解决问题能力,良好的团队合作精神及沟通意识。


数据采集与处理工程师(社招)

职位描述:

负责为算法研究人员提供高质量数据集,包括但不限于以下工作内容:

1.基于分析、模拟、逆向工程等手段获取互联网公开数据;

2.通过技术手段提高数据采集的质量和数量;

3.参与NLP大模型的数据清洗工作,包括但不限于数据格式转换,内容抽取等;

4.深入了解数据内容,分析数据特征,持续优化数据的清洗规则,提升输出数据的质量。


职位要求:

1.计算机相关专业本科及以上学历,拥有2年及以上相关工作经验者优先;

2.拥有爬虫、数据预处理、大数据等一项或多项领域从业经验者优先;

3.精通Python编程,熟悉Linux,能够使用Shell脚本解决日常问题;

4.熟悉多线程、多进程、网络编程相关知识,熟悉Scrapy、Spark、Xpath、Css-Selector其中一项工具或拥有NLP领域相关经验者优先;

5.拥有强烈的好奇心和极客精神,追求高质量代码者优先。


数据产品经理(社招、校招)

职位描述:

1.负责各类大模型数据获取的需求,实施数据的来源调研,制定搜集方式以及数据采集方案;

2.负责设计和优化数据资产管理方式,包括数据资产的采集、识别、入库、编目、评估等全生命周期流程,制定数据标准化规范并落地实施;

3.负责大模型数据部门的数据资产平台设计和规划。


职位要求:

1.硕士及以上学位,计算机科学、人工智能、统计学等相关专业优先;

2.具有3-5年相关工作经验者优先;

3.熟悉结构化或非结构化数据全生命周期处理过程,或具备相关项目经验者优先;

4.熟练使用Python或其他工具进行数据分析和处理,拥有非结构化数据处理经验或算法相关经验者优先;

5.具备良好的沟通与团队协作能力,有责任心、主动性和创新精神,能够持续学习并追踪学术热点。


投递方式

方式一:
发送简历至邮箱:chuzhihui@pjlab.org.cn

邮件及简历命名格式:姓名 - 申请的岗位名称 -(校招/社招)


方式二:
登录上海人工智能实验室官方网站(www.shlab.org.cn)

点击导航栏“加入我们”,搜索"大模型数据"查看对应岗位并投递(点击文末阅读原文直达)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存