其他
OpenAI 新货详解:强化微调
强化微调
顾名思义,微调的强化版
让大模型在专业领域发挥作用
我们会对它「微调」
比如给 GPT-4 灌输特定知识
让其成为:很懂篮球的 GPT-4
或者成为:很懂唱跳的 GPT-4
但,这是给常规模型的
o1 不是常规模型
更偏向于 Agent
不会直接输出结果
而是先进行推理
再对推理进行总结
这时
普通微调就不行了
得强化微调
Reinforcement Fine-Tuning
RFT
经过微调的 o1 mini
在领域任务上
比原始版的 o1 满血
更有效(并且便宜很多)
期货,25年发布
申请早用
https://openai.com/form/rft-research-program/
然后你会收到
找一个看着不错的模型
比如 GPT-4
通过特定接口
给它一些专业数据
格式类似
问:"你擅长唱、跳、Rap 还有什么"
答:"篮球"
之后再问
就可以获得不错效果
问:"唱首歌吧"
答:"〜( ̄▽ ̄〜) 鸡你太美~"
这种做法
叫做 微调
图释如下
如果你懒得写问答
也可以让 AI 帮你写
找一个很贵,但很强的模型
叫「爱我giegie」
帮你生成很多问答
比如
问:"练习时长多久了?"
答:"两年半"
问:"为什么打篮球?"
答:"只因太美"
...
拿这些数据
训练一个不那么聪明的模型
它也能成功出道
这种方法,叫做 蒸馏
图示如下
声音相关(尚未发布)
今天是 Gemini 周年庆
Gemini-exp-1206 发布
战回榜首