OpenAI 新货详解：强化微调

Original 金色传说大聪明赛博禅心

2024-12-08

今日发布

强化微调

顾名思义，微调的强化版

和微调不同用于 o1期货

让大模型在专业领域发挥作用

我们会对它「微调」

比如给 GPT-4 灌输特定知识

让其成为：很懂篮球的 GPT-4

或者成为：很懂唱跳的 GPT-4

但，这是给常规模型的

o1 不是常规模型

更偏向于 Agent

不会直接输出结果

而是先进行推理

再对推理进行总结

这时

普通微调就不行了

得强化微调

Reinforcement Fine-Tuning

RFT

效果

经过微调的 o1 mini

在领域任务上

比原始版的 o1 满血

更有效（并且便宜很多）

评价

期货，25年发布

申请早用

https://openai.com/form/rft-research-program/

然后你会收到

相关名词微调

找一个看着不错的模型

比如 GPT-4

通过特定接口

给它一些专业数据

格式类似

问："你擅长唱、跳、Rap 还有什么"答："篮球"

之后再问

就可以获得不错效果

问："唱首歌吧"答："〜(￣▽￣〜) 鸡你太美～"

这种做法

叫做微调

图释如下

蒸馏

如果你懒得写问答

也可以让 AI 帮你写

找一个很贵，但很强的模型

叫「爱我giegie」

帮你生成很多问答

比如

问："练习时长多久了？"答："两年半"

问："为什么打篮球？"答："只因太美"...

拿这些数据

训练一个不那么聪明的模型

它也能成功出道

这种方法，叫做蒸馏

图示如下

以及...仔细看图

声音相关（尚未发布）

来自谷歌

今天是 Gemini 周年庆

Gemini-exp-1206 发布

战回榜首

继续滑动看下一个

赛博禅心

向上滑动看下一个

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

OpenAI 新货详解：强化微调

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

OpenAI 新货详解：强化微调

您可能也对以下帖子感兴趣