OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

Original SuperCLUE CLUE中文语言理解测评基准

2024-12-08

本测评结果仅用于学术研究。

9月13日凌晨，OpenAI正式发布新一代大模型o1-preview。

据OpenAI官方介绍，o1在推理能力上取得重大进展，可进行复杂的任务推理，尤其是复杂的科学、数学和编程任务。与历史版本不同的是，o1模型处理问题时会像人类一样“思考”，用时约几秒至数十秒不等，内部会产生较长的思维链。

在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83.3%，o1-preview的正确率为56.7%，而GPT-4o仅有13.4%的准确率。

针对公众关注的o1中文性能和推理能力的问题，专业第三方测评机构SuperCLUE选取了中文复杂任务高阶推理测评集，对o1-preview的中文推理能力进行了全面评估。

测评环境

参考标准：SuperCLUE-Reasoning中文高阶推理测评基准

评测模型：o1-preview（API）

评测集：SuperCLUE-Reasoning中文复杂任务高阶推理评测集。共302道题，包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。

模型GenerationConfig配置：

参考OpenAI o1详细说明文档：
https://openai.com/o1/

测评方法：

针对每一道推理题目，我们提供人工校验和核对后的参考答案和推理过程；然后根据设定的评估流程、评价标准和打分规则（1-5分），裁判模型对候选模型的答案进行评估。设定的评价标准包括：符合基本要求、推理准确性、结论合理性。

先说结论

结论1：o1-preview在中文复杂任务的高阶推理（SC-Reasoning）上表现惊艳，总分达到85.27分，比全球其他厂商的通用大模型高出15分以上，当前遥遥领先。

结论2：o1-preview相比上一代版本ChatGPT-4o-latest，在推理任务中提升了8.53分，并在多步推理、数值推理、计算推理和优化问题等二级任务中均有显著进步。

测评结果

o1-preview对比GPT-4系列

测评示例

示例1：最优化问题

问

某物流公司需要优化其日常配送线路，客户分布在城市的不同区域。已知：

1. 每天需为10个不同的客户配送。

2. 有三个配送中心，每个配送中心负责一定区域的客户,且一个配送中心最多配送四次。

3. 列表给出三个配送中心到不同用户的距离，如果为0说明无法配送。

例如[6,7, 0, 8, 5, 0, 4, 3, 2, 0]表示配送中心1到客户0，1，2，3，4，5，6，7，8，9的距离。

列表如下：

[[6,7, 0, 8, 5, 0, 4, 3, 2, 0], [0,3, 4,0,5,7,6,0,0, 2], [4, 2, 0, 0, 4, 5, 6, 7, 6, 0] 。

4. 每个客户只需要配送一次。

5. 每个货车的油耗为每公里0.5升，每升油的价格为1美元。

6. 货车配送一个客户需要回到配送中心。

请问如何安排配送路线，以确保油耗成本最小化？

（...思考53秒...）

OpenAI o1-preview回答：

为了使油耗成本最小化，我们需要安排配送路线，使得总行驶距离最短。每个车辆从配送中心到客户再返回，相当于往返距离，因此每个客户的配送成本与配送中心到客户的单程距离成正比。

首先，我们列出每个配送中心可以服务的客户及对应的距离（如果可以到达）：

**配送中心1（Center 0）：**

- 可服务客户：0（6公里），1（7公里），3（8公里），4（5公里），6（4公里），7（3公里），8（2公里）

**配送中心2（Center 1）：**

- 可服务客户：1（3公里），2（4公里），4（5公里），5（7公里），6（6公里），9（2公里）

**配送中心3（Center 2）：**

- 可服务客户：0（4公里），1（2公里），4（4公里），5（5公里），6（6公里），7（7公里），8（6公里）

接下来，我们识别只能由一个配送中心服务的客户，并优先为他们分配：

- 客户2只能由配送中心2服务。

- 客户3只能由配送中心1服务。

- 客户9只能由配送中心2服务。

因此，我们分配：

- **客户2**给**配送中心2**

- **客户3**给**配送中心1**

- **客户9**给**配送中心2**

现在考虑剩余的客户，优先分配距离最短的组合，同时不超过每个配送中心的最大配送次数（4次）：

1. **客户8**有两个选择，选择距离较短的配送中心1（2公里）。

2. **客户1**有三个选择，选择距离最短的配送中心3（2公里）。

3. **客户0**有两个选择，选择距离较短的配送中心3（4公里）。

4. **客户4**有三个选择，选择距离较短的配送中心3（4公里）。

5. **客户5**有两个选择，选择距离较短的配送中心3（5公里）。

6. **客户7**只能由配送中心1或3服务，选择距离较短的配送中心1（3公里）。

7. **客户6**有三个选择，选择距离较短的配送中心1（4公里）。

最终的分配如下：

- **配送中心1**（Center 0）：客户3（8公里），客户8（2公里），客户7（3公里），客户6（4公里）

- **配送中心2**（Center 1）：客户2（4公里），客户9（2公里）

- **配送中心3**（Center 2）：客户1（2公里），客户0（4公里），客户4（4公里），客户5（5公里）

计算总距离：

- **配送中心1**：8 + 2 + 3 + 4 = **17公里**

- **配送中心2**：4 + 2 = **6公里**

- **配送中心3**：2 + 4 + 4 + 5 = **15公里**

总距离：17 + 6 + 15 = **38公里**

因此，为了使油耗成本最小化，我们应按照上述方式进行配送路线安排，总油耗成本为38美元。

**最佳配送路线安排如下：**

- **配送中心1（Center 0）：**

- 服务客户3，往返距离8公里

- 服务客户8，往返距离2公里

- 服务客户7，往返距离3公里

- 服务客户6，往返距离4公里

- **配送中心2（Center 1）：**

- 服务客户2，往返距离4公里

- 服务客户9，往返距离2公里

- **配送中心3（Center 2）：**

- 服务客户1，往返距离2公里

- 服务客户0，往返距离4公里

- 服务客户4，往返距离4公里

- 服务客户5，往返距离5公里

这样安排可以确保油耗成本最小化，总成本为38美元。

**答案：**

为了使油耗成本最小，总成本为38美元，具体安排如下：

- 配送中心1服务客户3、6、7、8；

- 配送中心2服务客户2、9；

- 配送中心3服务客户0、1、4、5。

示例2：多步推理

问

某文化节上有四位演员（A,B,C,D）分别在时段1~4进行表演。提供以下条件：

1. 第4时段的表演人数多于其他任何时段。

2. 第1时段不能是单人表演。

3. 不能连续两场单人表演。

4. 每名演员至少表演一次，但不能连续两场表演。

5. B和C必定同时登场。

6. D参加了第1时段的表演，A没有参加第4时段的表演。

请问各位演员的具体表演时段如何安排？

（...思考45秒...）

OpenAI o1-preview回答：

经过分析，我们得到以下安排：

**时段1**：演员 **A** 和 **D**（D必须在第一时段，且第一时段不能是单人表演）

**时段2**：演员 **B** 和 **C**（B和C必须同时登场，A和D刚表演过需要休息）

**时段3**：演员 **A** 单独表演（A在时段2休息后可以再次表演）

**时段4**：演员 **B**、**C** 和 **D**（D在时段3休息过可以再次表演，A在时段3刚表演过不能连续）

这满足所有条件：

1. 第4时段有3名演员，是人数最多的场次。

2. 第1时段有2名演员，不是单人表演。

3. 没有连续两场单人表演。

4. 每位演员至少表演一次，且没有连续两场表演。

5. B和C始终一起表演。

6. D在第1时段表演，A没有参加第4时段的表演。

所以，各时段演员安排如下：

- **时段1**：A、D

- **时段2**：B、C

- **时段3**：A

- **时段4**：B、C、D

Answer:

- Time 1: A and D

- Time 2: B and C

- Time 3: A alone

- Time 4: B, C, and D

更多详细o1大模型测评结果和测评示例，可加入SuperCLUE-o1交流群获取。

# 加入社群

# 联系我们

高阶推理测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE高阶推理测评申请

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

您可能也对以下帖子感兴趣