查看原文
其他

OpenAI o1中文高阶推理基准测评结果出炉!总分85.27,推理能力大幅领先

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

本测评结果仅用于学术研究。

9月13日凌晨,OpenAI正式发布新一代大模型o1-preview。

据OpenAI官方介绍,o1在推理能力上取得重大进展,可进行复杂的任务推理,尤其是复杂的科学、数学和编程任务。与历史版本不同的是,o1模型处理问题时会像人类一样“思考”,用时约几秒至数十秒不等,内部会产生较长的思维链。

在国际数学奥林匹克的资格考试(AIME)中,o1的正确率为83.3%,o1-preview的正确率为56.7%,而GPT-4o仅有13.4%的准确率。

针对公众关注的o1中文性能和推理能力的问题,专业第三方测评机构SuperCLUE选取了中文复杂任务高阶推理测评集,对o1-preview的中文推理能力进行了全面评估。
测评环境

参考标准:SuperCLUE-Reasoning中文高阶推理测评基准

评测模型:o1-preview(API)


评测集:SuperCLUE-Reasoning中文复杂任务高阶推理评测集。共302道题,包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。


模型GenerationConfig配置:

  • 参考OpenAI o1详细说明文档:
    https://openai.com/o1/


测评方法:

针对每一道推理题目,我们提供人工校验和核对后的参考答案和推理过程;然后根据设定的评估流程、评价标准和打分规则(1-5分),裁判模型对候选模型的答案进行评估。设定的评价标准包括:符合基本要求、推理准确性、结论合理性。

先说结论

结论1:o1-preview在中文复杂任务的高阶推理(SC-Reasoning)上表现惊艳,总分达到85.27分,比全球其他厂商的通用大模型高出15分以上,当前遥遥领先。

结论2:o1-preview相比上一代版本ChatGPT-4o-latest,在推理任务中提升了8.53分,并在多步推理、数值推理、计算推理和优化问题等二级任务中均有显著进步。

测评结果

o1-preview对比GPT-4系列

测评示例


示例1:最优化问题

某物流公司需要优化其日常配送线路,客户分布在城市的不同区域。已知:

1. 每天需为10个不同的客户配送。

2. 有三个配送中心,每个配送中心负责一定区域的客户,且一个配送中心最多配送四次。

3. 列表给出三个配送中心到不同用户的距离,如果为0说明无法配送。

例如[6,7, 0, 8, 5, 0, 4, 3, 2, 0]表示配送中心1到客户0,1,2,3,4,5,6,7,8,9的距离。

列表如下:

[[6,7, 0, 8, 5, 0, 4, 3, 2, 0], [0,3, 4,0,5,7,6,0,0, 2], [4, 2, 0, 0, 4, 5, 6, 7, 6, 0] 。

4. 每个客户只需要配送一次。

5. 每个货车的油耗为每公里0.5升,每升油的价格为1美元。

6. 货车配送一个客户需要回到配送中心。

请问如何安排配送路线,以确保油耗成本最小化?

(...思考53秒...)

OpenAI o1-preview回答:

为了使油耗成本最小化,我们需要安排配送路线,使得总行驶距离最短。每个车辆从配送中心到客户再返回,相当于往返距离,因此每个客户的配送成本与配送中心到客户的单程距离成正比。

首先,我们列出每个配送中心可以服务的客户及对应的距离(如果可以到达):

**配送中心1(Center 0):**

- 可服务客户:0(6公里),1(7公里),3(8公里),4(5公里),6(4公里),7(3公里),8(2公里)

**配送中心2(Center 1):**

- 可服务客户:1(3公里),2(4公里),4(5公里),5(7公里),6(6公里),9(2公里)

**配送中心3(Center 2):**

- 可服务客户:0(4公里),1(2公里),4(4公里),5(5公里),6(6公里),7(7公里),8(6公里)

接下来,我们识别只能由一个配送中心服务的客户,并优先为他们分配:

- 客户2只能由配送中心2服务。

- 客户3只能由配送中心1服务。

- 客户9只能由配送中心2服务。

因此,我们分配:

- **客户2**给**配送中心2**

- **客户3**给**配送中心1**

- **客户9**给**配送中心2**

现在考虑剩余的客户,优先分配距离最短的组合,同时不超过每个配送中心的最大配送次数(4次):

1. **客户8**有两个选择,选择距离较短的配送中心1(2公里)。

2. **客户1**有三个选择,选择距离最短的配送中心3(2公里)。

3. **客户0**有两个选择,选择距离较短的配送中心3(4公里)。

4. **客户4**有三个选择,选择距离较短的配送中心3(4公里)。

5. **客户5**有两个选择,选择距离较短的配送中心3(5公里)。

6. **客户7**只能由配送中心1或3服务,选择距离较短的配送中心1(3公里)。

7. **客户6**有三个选择,选择距离较短的配送中心1(4公里)。

最终的分配如下:

- **配送中心1**(Center 0):客户3(8公里),客户8(2公里),客户7(3公里),客户6(4公里)

- **配送中心2**(Center 1):客户2(4公里),客户9(2公里)

- **配送中心3**(Center 2):客户1(2公里),客户0(4公里),客户4(4公里),客户5(5公里)

计算总距离:

- **配送中心1**:8 + 2 + 3 + 4 = **17公里**

- **配送中心2**:4 + 2 = **6公里**

- **配送中心3**:2 + 4 + 4 + 5 = **15公里**

总距离:17 + 6 + 15 = **38公里**

因此,为了使油耗成本最小化,我们应按照上述方式进行配送路线安排,总油耗成本为38美元。

**最佳配送路线安排如下:**

- **配送中心1(Center 0):**

  - 服务客户3,往返距离8公里

  - 服务客户8,往返距离2公里

  - 服务客户7,往返距离3公里

  - 服务客户6,往返距离4公里

- **配送中心2(Center 1):**

  - 服务客户2,往返距离4公里

  - 服务客户9,往返距离2公里

- **配送中心3(Center 2):**

  - 服务客户1,往返距离2公里

  - 服务客户0,往返距离4公里

  - 服务客户4,往返距离4公里

  - 服务客户5,往返距离5公里

这样安排可以确保油耗成本最小化,总成本为38美元。

**答案:**

为了使油耗成本最小,总成本为38美元,具体安排如下:

- 配送中心1服务客户3、6、7、8;

- 配送中心2服务客户2、9;

- 配送中心3服务客户0、1、4、5。


示例2:多步推理

某文化节上有四位演员(A,B,C,D)分别在时段1~4进行表演。提供以下条件:

1. 第4时段的表演人数多于其他任何时段。

2. 第1时段不能是单人表演。

3. 不能连续两场单人表演。

4. 每名演员至少表演一次,但不能连续两场表演。

5. B和C必定同时登场。

6. D参加了第1时段的表演,A没有参加第4时段的表演。

请问各位演员的具体表演时段如何安排?

(...思考45秒...)

OpenAI o1-preview回答:

经过分析,我们得到以下安排:

**时段1**:演员 **A** 和 **D**(D必须在第一时段,且第一时段不能是单人表演)

**时段2**:演员 **B** 和 **C**(B和C必须同时登场,A和D刚表演过需要休息)

**时段3**:演员 **A** 单独表演(A在时段2休息后可以再次表演)

**时段4**:演员 **B**、**C** 和 **D**(D在时段3休息过可以再次表演,A在时段3刚表演过不能连续)

这满足所有条件:

1. 第4时段有3名演员,是人数最多的场次。

2. 第1时段有2名演员,不是单人表演。

3. 没有连续两场单人表演。

4. 每位演员至少表演一次,且没有连续两场表演。

5. B和C始终一起表演。

6. D在第1时段表演,A没有参加第4时段的表演。

所以,各时段演员安排如下:

- **时段1**:A、D

- **时段2**:B、C

- **时段3**:A

- **时段4**:B、C、D

Answer:

- Time 1: A and D

- Time 2: B and C

- Time 3: A alone

- Time 4: B, C, and D

更多详细o1大模型测评结果和测评示例,可加入SuperCLUE-o1交流群获取。
# 加入社群

# 联系我们



高阶推理测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE高阶推理测评申请


扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE


   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存