上海AI实验室大模型数据基座团队｜全球招聘

Original Shanghai AI Lab 上海人工智能实验室 2023-09-21

收录于合集

上海人工智能实验室大模型数据基座团队（OpenDataLab团队）作为人工智能数据领域的探路者和开源数据社区的倡导者，围绕大模型数据开展多项前沿技术探索，构建面向大模型研发全流程的数据平台及大模型时代数据管理体系。该团队建设的浦数人工智能开放数据平台OpenDataLab是AI大模型时代面向开发者的新一代超大规模、高质量、多模态数据开放平台，以统一标准构建开放数据集互通互联网络，致力于引领 AI 大模型时代数据的开放共享。
现针对以下岗位招募人才：

语言大模型算法青年研究员
多模态大模型算法青年研究员
搜索引擎算法工程师
数据采集与处理工程师
数据产品经理

（相关岗位具体内容可上下滑动查看）

语言大模型算法青年研究员（社招、校招）

职位描述：

参与实验室书生·浦语大语言模型（InternLM）的数据准备、模型训练、模型评测等工作，构建新一代高质量的大型语言数据集，工作内容包括：

1.基于大规模网页、代码、论文、书籍等数据，复现大模型数据相关论文，并在此基础上制定更加严格的数据质量标准，对训练数据进行分析和分类，评估数据质量，解决数据主题分布、内容合规、反毒性、反偏见等问题；

2.构建Data-Centric数据闭环，探索在固定模型和评测情况下提高大模型数据语料质量的路径，包括持续优化数据质量，研究数据和模型的Scaling Law、研究数据配比、数据混入策略与混入时机；

3.围绕更具体细分类数据（如CC数据集、代码、论文、书籍等）构建相应大模型的数据-训练-评测链条，并针对细分类数据建立质量评估与优化体系，促进细分类数据质量提升。

职位要求：

1.计算机／数学／统计学／模式识别等相关专业本科及以上学历，拥有博士学位者优先；

2.曾发表顶会论文，拥有大模型开发经验及一线互联网公司NLP算法开发经验者优先；

3.具备快速阅读和复现论文的能力，能够系统性对比研究领域的相关成果，并制定改进计划；

4.熟练掌握Python/C++等语言，熟悉Pytorch、Tensorflow等常用深度学习工具，熟悉常用数据结构及算法；

5.对数据结构和算法有深入理解和研究，对算法有较强的实现能力者优先；

6.拥有强烈的上进心和求知欲，善于学习新事物，渴望用技术改变未来；

7.具备优秀的分析和解决问题能力，良好的团队合作精神及沟通意识。

多模态大模型算法青年研究员（社招、校招）

职位描述：

参与实验室多模态大模型的数据准备、模型训练、模型评测等工作，构建下一代超大规模的多模态数据集，工作内容包括：

1.建设对标LAION-5B、LAION-COCO、MMC4、InstructBLIP、LLaVA等多模态训练数据集，并在此基础上进一步提升数据质量和多样性；

2.构建Data-Centric数据闭环，探索在固定模型和评测情况下提高多模态数据质量的路径，包括图文数据质量、研究数据和模型的Scaling Law、研究数据配比、数据混入策略与混入时机；

3.检测并提高大模型数据内容安全性。

职位要求：

1.计算机/软件工程等相关专业本科以上学历，拥有博士学位者优先；

2.熟悉计算机视觉、多模态领域的相关研究工作和算法，拥有发表顶会论文、大模型研究工作、知名竞赛获奖、顶级研究机构或一线互联网工作经验者优先；

3.熟练使用Python、Pytorch和CUDA等语言及工具，具备快速阅读和复现论文的能力，能够系统性对比研究领域的相关成果，并制定改进计划；

4.具备优秀的分析和解决问题能力，良好的团队合作精神及沟通意识。

搜索引擎算法工程师（社招）

职位描述：

负责对海量互联网数据进行分析处理，工作内容包括：

1.对网页数据的进行排序，解决基础检索、网页质量、内容相关性、意图理解、内容权威性及时效性等问题；

2.从海量网页中，筛选出优质的资源，提升数据收录效率和数据多样性；

3.从网页数据中提取有价值的信息，进行结构化字段提取、智能摘要生成。

职位要求：

1.本科及以上学历，具有搜索业务3年及以上工作经验；

2.熟悉自然语言处理、机器学习、模式识别等常用算法，在自然语言处理方向有深入实践；

3.熟练掌握Python/C++等语言，熟悉PyTorch、Tensorflow等常用深度学习工具，熟悉常用数据结构及算法；

4.具备良好的学习能力，能够跟进领域内最新技术研究成果，并结合应用场景快速实验和调优；

5.具备优秀的分析和解决问题能力，良好的团队合作精神及沟通意识。

数据采集与处理工程师（社招）

职位描述：

负责为算法研究人员提供高质量数据集，包括但不限于以下工作内容：

1.基于分析、模拟、逆向工程等手段获取互联网公开数据；

2.通过技术手段提高数据采集的质量和数量；

3.参与NLP大模型的数据清洗工作，包括但不限于数据格式转换，内容抽取等；

4.深入了解数据内容，分析数据特征，持续优化数据的清洗规则，提升输出数据的质量。

职位要求：

1.计算机相关专业本科及以上学历，拥有2年及以上相关工作经验者优先；

2.拥有爬虫、数据预处理、大数据等一项或多项领域从业经验者优先；

3.精通Python编程，熟悉Linux，能够使用Shell脚本解决日常问题；

4.熟悉多线程、多进程、网络编程相关知识，熟悉Scrapy、Spark、Xpath、Css-Selector其中一项工具或拥有NLP领域相关经验者优先；

5.拥有强烈的好奇心和极客精神，追求高质量代码者优先。

数据产品经理（社招、校招）

职位描述：

1.负责各类大模型数据获取的需求，实施数据的来源调研，制定搜集方式以及数据采集方案；

2.负责设计和优化数据资产管理方式，包括数据资产的采集、识别、入库、编目、评估等全生命周期流程，制定数据标准化规范并落地实施；

3.负责大模型数据部门的数据资产平台设计和规划。

职位要求：

1.硕士及以上学位，计算机科学、人工智能、统计学等相关专业优先；

2.具有3-5年相关工作经验者优先；

3.熟悉结构化或非结构化数据全生命周期处理过程，或具备相关项目经验者优先；

4.熟练使用Python或其他工具进行数据分析和处理，拥有非结构化数据处理经验或算法相关经验者优先；

5.具备良好的沟通与团队协作能力，有责任心、主动性和创新精神，能够持续学习并追踪学术热点。

投递方式

方式一：
发送简历至邮箱：chuzhihui@pjlab.org.cn

邮件及简历命名格式：姓名 - 申请的岗位名称 -（校招/社招）

方式二：
登录上海人工智能实验室官方网站（www.shlab.org.cn）

点击导航栏“加入我们”，搜索"大模型数据"查看对应岗位并投递（点击文末阅读原文直达）

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

上海AI实验室大模型数据基座团队｜全球招聘

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

上海AI实验室大模型数据基座团队｜全球招聘

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡