查看原文
其他

OpenAI 新货详解:强化微调

金色传说大聪明 赛博禅心
2024-12-08
今日发布

强化微调


顾名思义,微调的强化版


和微调不同用于 o1期货

让大模型在专业领域发挥作用

我们会对它「微调」


比如给 GPT-4 灌输特定知识

让其成为:很懂篮球的 GPT-4

或者成为:很懂唱跳的 GPT-4


但,这是给常规模型的


o1 不是常规模型

更偏向于 Agent

不会直接输出结果

而是先进行推理

再对推理进行总结


这时

普通微调就不行了

强化微调

Reinforcement Fine-Tuning

RFT



效果

经过微调的 o1 mini

在领域任务上

比原始版的 o1 满血

更有效(并且便宜很多)




评价

期货,25年发布


申请早用

https://openai.com/form/rft-research-program/


然后你会收到


相关名词微调

找一个看着不错的模型

比如 GPT-4


通过特定接口

给它一些专业数据

格式类似

问:"你擅长唱、跳、Rap 还有什么"答:"篮球"


之后再问

就可以获得不错效果

问:"唱首歌吧"答:"〜( ̄▽ ̄〜) 鸡你太美~"


这种做法

叫做 微调

图释如下

基础模型专业领域数据专业模型


蒸馏

如果你懒得写问答

也可以让 AI 帮你写


找一个很贵,但很强的模型

叫「爱我giegie」

帮你生成很多问答

比如


问:"练习时长多久了?"答:"两年半"
问:"为什么打篮球?"答:"只因太美"...


拿这些数据

训练一个不那么聪明的模型

它也能成功出道


这种方法,叫做 蒸馏

图示如下

教师模型知识流动学生模型


以及...仔细看图


声音相关(尚未发布)


来自谷歌

今天是 Gemini 周年庆

Gemini-exp-1206 发布

战回榜首




继续滑动看下一个
赛博禅心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存