OpenAI o1中文高阶推理基准测评结果出炉!总分85.27,推理能力大幅领先
本测评结果仅用于学术研究。
9月13日凌晨,OpenAI正式发布新一代大模型o1-preview。
据OpenAI官方介绍,o1在推理能力上取得重大进展,可进行复杂的任务推理,尤其是复杂的科学、数学和编程任务。与历史版本不同的是,o1模型处理问题时会像人类一样“思考”,用时约几秒至数十秒不等,内部会产生较长的思维链。
在国际数学奥林匹克的资格考试(AIME)中,o1的正确率为83.3%,o1-preview的正确率为56.7%,而GPT-4o仅有13.4%的准确率。
评测模型:o1-preview(API)
评测集:SuperCLUE-Reasoning中文复杂任务高阶推理评测集。共302道题,包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。
模型GenerationConfig配置:
参考OpenAI o1详细说明文档: https://openai.com/o1/
针对每一道推理题目,我们提供人工校验和核对后的参考答案和推理过程;然后根据设定的评估流程、评价标准和打分规则(1-5分),裁判模型对候选模型的答案进行评估。设定的评价标准包括:符合基本要求、推理准确性、结论合理性。
结论1:o1-preview在中文复杂任务的高阶推理(SC-Reasoning)上表现惊艳,总分达到85.27分,比全球其他厂商的通用大模型高出15分以上,当前遥遥领先。
结论2:o1-preview相比上一代版本ChatGPT-4o-latest,在推理任务中提升了8.53分,并在多步推理、数值推理、计算推理和优化问题等二级任务中均有显著进步。
测评示例
问
某物流公司需要优化其日常配送线路,客户分布在城市的不同区域。已知:1. 每天需为10个不同的客户配送。
2. 有三个配送中心,每个配送中心负责一定区域的客户,且一个配送中心最多配送四次。
3. 列表给出三个配送中心到不同用户的距离,如果为0说明无法配送。
例如[6,7, 0, 8, 5, 0, 4, 3, 2, 0]表示配送中心1到客户0,1,2,3,4,5,6,7,8,9的距离。
列表如下:
[[6,7, 0, 8, 5, 0, 4, 3, 2, 0], [0,3, 4,0,5,7,6,0,0, 2], [4, 2, 0, 0, 4, 5, 6, 7, 6, 0] 。
4. 每个客户只需要配送一次。
5. 每个货车的油耗为每公里0.5升,每升油的价格为1美元。
6. 货车配送一个客户需要回到配送中心。
请问如何安排配送路线,以确保油耗成本最小化?
(...思考53秒...)
OpenAI o1-preview回答:
为了使油耗成本最小化,我们需要安排配送路线,使得总行驶距离最短。每个车辆从配送中心到客户再返回,相当于往返距离,因此每个客户的配送成本与配送中心到客户的单程距离成正比。
首先,我们列出每个配送中心可以服务的客户及对应的距离(如果可以到达):
**配送中心1(Center 0):**
- 可服务客户:0(6公里),1(7公里),3(8公里),4(5公里),6(4公里),7(3公里),8(2公里)
**配送中心2(Center 1):**
- 可服务客户:1(3公里),2(4公里),4(5公里),5(7公里),6(6公里),9(2公里)
**配送中心3(Center 2):**
- 可服务客户:0(4公里),1(2公里),4(4公里),5(5公里),6(6公里),7(7公里),8(6公里)
接下来,我们识别只能由一个配送中心服务的客户,并优先为他们分配:
- 客户2只能由配送中心2服务。
- 客户3只能由配送中心1服务。
- 客户9只能由配送中心2服务。
因此,我们分配:
- **客户2**给**配送中心2**
- **客户3**给**配送中心1**
- **客户9**给**配送中心2**
现在考虑剩余的客户,优先分配距离最短的组合,同时不超过每个配送中心的最大配送次数(4次):
1. **客户8**有两个选择,选择距离较短的配送中心1(2公里)。
2. **客户1**有三个选择,选择距离最短的配送中心3(2公里)。
3. **客户0**有两个选择,选择距离较短的配送中心3(4公里)。
4. **客户4**有三个选择,选择距离较短的配送中心3(4公里)。
5. **客户5**有两个选择,选择距离较短的配送中心3(5公里)。
6. **客户7**只能由配送中心1或3服务,选择距离较短的配送中心1(3公里)。
7. **客户6**有三个选择,选择距离较短的配送中心1(4公里)。
最终的分配如下:
- **配送中心1**(Center 0):客户3(8公里),客户8(2公里),客户7(3公里),客户6(4公里)
- **配送中心2**(Center 1):客户2(4公里),客户9(2公里)
- **配送中心3**(Center 2):客户1(2公里),客户0(4公里),客户4(4公里),客户5(5公里)
计算总距离:
- **配送中心1**:8 + 2 + 3 + 4 = **17公里**
- **配送中心2**:4 + 2 = **6公里**
- **配送中心3**:2 + 4 + 4 + 5 = **15公里**
总距离:17 + 6 + 15 = **38公里**
因此,为了使油耗成本最小化,我们应按照上述方式进行配送路线安排,总油耗成本为38美元。
**最佳配送路线安排如下:**
- **配送中心1(Center 0):**
- 服务客户3,往返距离8公里
- 服务客户8,往返距离2公里
- 服务客户7,往返距离3公里
- 服务客户6,往返距离4公里
- **配送中心2(Center 1):**
- 服务客户2,往返距离4公里
- 服务客户9,往返距离2公里
- **配送中心3(Center 2):**
- 服务客户1,往返距离2公里
- 服务客户0,往返距离4公里
- 服务客户4,往返距离4公里
- 服务客户5,往返距离5公里
这样安排可以确保油耗成本最小化,总成本为38美元。
**答案:**
为了使油耗成本最小,总成本为38美元,具体安排如下:
- 配送中心1服务客户3、6、7、8;
- 配送中心2服务客户2、9;
- 配送中心3服务客户0、1、4、5。
问
某文化节上有四位演员(A,B,C,D)分别在时段1~4进行表演。提供以下条件:1. 第4时段的表演人数多于其他任何时段。
2. 第1时段不能是单人表演。
3. 不能连续两场单人表演。
4. 每名演员至少表演一次,但不能连续两场表演。
5. B和C必定同时登场。
6. D参加了第1时段的表演,A没有参加第4时段的表演。
请问各位演员的具体表演时段如何安排?
(...思考45秒...)
OpenAI o1-preview回答:
经过分析,我们得到以下安排:
**时段1**:演员 **A** 和 **D**(D必须在第一时段,且第一时段不能是单人表演)
**时段2**:演员 **B** 和 **C**(B和C必须同时登场,A和D刚表演过需要休息)
**时段3**:演员 **A** 单独表演(A在时段2休息后可以再次表演)
**时段4**:演员 **B**、**C** 和 **D**(D在时段3休息过可以再次表演,A在时段3刚表演过不能连续)
这满足所有条件:
1. 第4时段有3名演员,是人数最多的场次。
2. 第1时段有2名演员,不是单人表演。
3. 没有连续两场单人表演。
4. 每位演员至少表演一次,且没有连续两场表演。
5. B和C始终一起表演。
6. D在第1时段表演,A没有参加第4时段的表演。
所以,各时段演员安排如下:
- **时段1**:A、D
- **时段2**:B、C
- **时段3**:A
- **时段4**:B、C、D
Answer:
- Time 1: A and D
- Time 2: B and C
- Time 3: A alone
- Time 4: B, C, and D
# 联系我们
高阶推理测评申请方式:
请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE