查看原文
其他

今晚 12:30 RLHF: From Zero to ChatGPT 直播活动

Hugging Face Hugging Face 2023-04-04

本次演讲,我们将介绍一种称之为从人类反馈中强化学习 (RLHF, Reinforcement Learning from Human Feedback) 的基础知识,以及如何使用 RLHF 驱动实现 ChatGPT 这样的工具。我们将为大家介绍相关联的机器学习模型,涵盖自然语言处理 (NLP) 和强化学习,以带领读者了解如何在大型语言模型上使用 RLHF。我们也欢迎你在 YouTube 直播间向我们提出任何关于 RLHF 相关的问题。

演讲嘉宾

Nathan Lambert 是一名在 Hugging Face 工作的研究科学家,他获得了加州大学伯克利分校的博士学位,研究机器学习和机器人的交叉领域。他的导师是 Berkeley Autonomous Microsystems Lab 的 Kristofer Pister 教授和 Meta AI Research 的 Roberto Calandra,并于博士期间在 Meta AI 和 DeepMind 团队实习。Nathan 曾获得加州大学伯克利分校电子工程与计算机科学系的 Demetri Angelakos 利他主义纪念成就奖,以表彰他为改善社区规范所作的努力。

直播时间

2022 年 12 月 14 日 凌晨 0:30 (今晚),时长预期不会超过 1 个小时

参与直播

条件允许的情况下,我们 强烈建议 你直接到全球社区参与:
https://www.youtube.com/watch?v=2MBJOuVq380

活动转播

哔哩哔哩平台:
https://live.bilibili.com/26543157

微信视频号平台活动预告:

活动转播免责声明

我们会尽最大努力为社区成员们提供良好的转播体验,同时请参会者务必谅解,如果发生任何问题导致活动转播取消或无法进行,我们将不另行发文通知。请到上方的 YouTube 链接直接参与,会后我们会在一周内上传回放录像,敬请关注。

你也可以分享我们的活动海报到朋友圈帮助我们宣传:

交流 / 等回放群

群聊免责声明

  • 请只讨论与群聊主题相关的内容,勿讨论任何违反法律和 Hugging Face 社区规定的内容
  • 我们会非常积极的清理发送垃圾信息和违规内容的群成员,如果您认为自己被误伤,请向群主和管理员提出异议
  • 请勿在群内无故批量添加好友,一经发现,我们将永久禁止你参与任何我们的活动,如果你发现自己的隐私被侵犯,请直接拨打 110 报警
  • 本次活动完成之后,本群主题将变为深度强化学习课程讨论
  • 如果群满,请加小助手 chenglu169 拉你进群,备注 HF 1214 活动

参加 Hugging Face 深度强化学习课程

我们在公众号成立的 首推文章 里介绍过,12 月 5 日我们将开启一个完全免费的在线课程:深度强化学习课程 v2.0,这个课程由 8 个单元组成,每单元都有理论、实践和挑战部分,学员们可以通过这个课程研究深度强化学习,以及在 SnowballFight, Huggy the Doggo 🐶, MineRL (Minecraft ⛏️), VizDoom (Doom) 和经典环境 (如 Space Invaders 和 PyBullet) 中训练 Agents。如果完成并通过了 80% 的作业,还可以获得课程证书。

这个课程的第一单元已经发布,其他单元的内容正在持续更新中,未来也将加入更多从人类反馈中强化学习 (RLHF) 的内容,我们也录制了一个针对本课程的介绍,请关注今日推送的次条查看视频。

  • 注册课程:
    http://eepurl.com/ic5ZUD
  • 课程大纲:
    https://simoninithomas.github.io/deep-rl-course/
  • 第一单元内容:
    https://hf.co/deep-rl-course/unit1/introduction

感谢社区成员「茶叶蛋蛋」为本次活动设计的的各种图像资源!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存