今晚 12:30 RLHF: From Zero to ChatGPT 直播活动
本次演讲,我们将介绍一种称之为从人类反馈中强化学习 (RLHF, Reinforcement Learning from Human Feedback) 的基础知识,以及如何使用 RLHF 驱动实现 ChatGPT 这样的工具。我们将为大家介绍相关联的机器学习模型,涵盖自然语言处理 (NLP) 和强化学习,以带领读者了解如何在大型语言模型上使用 RLHF。我们也欢迎你在 YouTube 直播间向我们提出任何关于 RLHF 相关的问题。
演讲嘉宾
Nathan Lambert 是一名在 Hugging Face 工作的研究科学家,他获得了加州大学伯克利分校的博士学位,研究机器学习和机器人的交叉领域。他的导师是 Berkeley Autonomous Microsystems Lab 的 Kristofer Pister 教授和 Meta AI Research 的 Roberto Calandra,并于博士期间在 Meta AI 和 DeepMind 团队实习。Nathan 曾获得加州大学伯克利分校电子工程与计算机科学系的 Demetri Angelakos 利他主义纪念成就奖,以表彰他为改善社区规范所作的努力。
直播时间
2022 年 12 月 14 日 凌晨 0:30 (今晚),时长预期不会超过 1 个小时
参与直播
条件允许的情况下,我们 强烈建议 你直接到全球社区参与:
https://www.youtube.com/watch?v=2MBJOuVq380
活动转播
哔哩哔哩平台:
https://live.bilibili.com/26543157
微信视频号平台活动预告:
活动转播免责声明
我们会尽最大努力为社区成员们提供良好的转播体验,同时请参会者务必谅解,如果发生任何问题导致活动转播取消或无法进行,我们将不另行发文通知。请到上方的 YouTube 链接直接参与,会后我们会在一周内上传回放录像,敬请关注。
你也可以分享我们的活动海报到朋友圈帮助我们宣传:
交流 / 等回放群
群聊免责声明
请只讨论与群聊主题相关的内容,勿讨论任何违反法律和 Hugging Face 社区规定的内容 我们会非常积极的清理发送垃圾信息和违规内容的群成员,如果您认为自己被误伤,请向群主和管理员提出异议 请勿在群内无故批量添加好友,一经发现,我们将永久禁止你参与任何我们的活动,如果你发现自己的隐私被侵犯,请直接拨打 110 报警 本次活动完成之后,本群主题将变为深度强化学习课程讨论 如果群满,请加小助手 chenglu169 拉你进群,备注 HF 1214 活动
参加 Hugging Face 深度强化学习课程
我们在公众号成立的 首推文章 里介绍过,12 月 5 日我们将开启一个完全免费的在线课程:深度强化学习课程 v2.0,这个课程由 8 个单元组成,每单元都有理论、实践和挑战部分,学员们可以通过这个课程研究深度强化学习,以及在 SnowballFight, Huggy the Doggo 🐶, MineRL (Minecraft ⛏️), VizDoom (Doom) 和经典环境 (如 Space Invaders 和 PyBullet) 中训练 Agents。如果完成并通过了 80% 的作业,还可以获得课程证书。
这个课程的第一单元已经发布,其他单元的内容正在持续更新中,未来也将加入更多从人类反馈中强化学习 (RLHF) 的内容,我们也录制了一个针对本课程的介绍,请关注今日推送的次条查看视频。
注册课程:
http://eepurl.com/ic5ZUD课程大纲:
https://simoninithomas.github.io/deep-rl-course/第一单元内容:
https://hf.co/deep-rl-course/unit1/introduction
感谢社区成员「茶叶蛋蛋」为本次活动设计的的各种图像资源!