各类大模型的 CSP 分数测试
sto_clx_orz
·
·
休闲·娱乐
这项测试主要由 @Destinyle 完成。
所有模型的提示词均为“请解决 pdf 中的 xxx 问题,给出 C++ 完整代码,禁止使用联网搜索。”并手动检查思考链中是否存在联网证据。
注意:本次测试中所有模型均只有一次给出代码的机会。
| Model |
club |
road |
replace |
employ |
\sum |
| ChatGPT GPT-5.1 Thinking(标准模式) |
100_{\ \text{5m37s}} |
100_{\ \text{9m11s}} |
100_{\ \text{8m51s}} |
8_{\ \text{13m39s}} |
308_{\ \text{37m22s}} |
| ChatGPT GPT-5 Pro |
100_{\ \text{11m40s}} |
64_{\ \text{18m40s}} |
25_{\ \text{18m10s}} |
100_{\ \text{17m52s}} |
289_{\ \text{66m22s}} |
| Grok 专家模式 |
55_{\ \text{8m5s}} |
80_{\ \text{4m}} |
60_{\ \text{9m17s}} |
76_{\ \text{13m37s}} |
271_{\ \text{34m59s}} |
| ChatGPT GPT-5 Thinking(进阶模式) |
30_{\ \text{7m3s}} |
56_{\ \text{8m17s}} |
100_{\ \text{7m14s}} |
4_{\ \text{7m6s}} |
190_{\ \text{33m40s}} |
| 豆包 Thinking |
100_{\ \text{Unknown}} |
\text{Timeout} |
85_{\ \text{Unknown}} |
\text{Timeout} |
185 |
| Gemini 2.5 Pro |
55_{\ \text{4m}} |
36_{\ \text{3m2s}} |
90_{\ \text{3m9s}} |
4_{\ \text{4m7s}} |
185_{\ \text{14m11s}} |
| ChatGPT *Polaris Alpha** |
100 |
16 |
35 |
4 |
155 |
| DeepSeek Without Thinking |
55 |
32 |
35 |
4 |
126 |
| Qwen 3-Max |
15_{\ \text{Unknown}} |
76_{\ \text{Unknown}} |
25_{\ \text{Unknown}} |
4_{\ \text{Unknown}} |
120_{\ \text{Unknown}} |
| DeepSeek Thinking |
55_{\ \text{7m25s}} |
24_{\ \text{5m44s}} |
30_{\ \text{4m47s}} |
4_{\ \text{4m59s}} |
113_{\ \text{22m57s}} |
*: Polaris Alpha 是在 OpenAI 官方发布 GPT-5.1 系列模型前,在民间开放的 Alpha 模型,该名称为 GPT-5.1 Alpha 的代号。
根据目前分数预测:
ChatGPT GPT-5.1 Thinking(标准模式)与 ChatGPT GPT-5 Pro 能够进入 WC。
Grok 专家模式、ChatGPT GPT-5 Thinking(进阶模式)、豆包 Thinking 与 Gemini 2.5 Pro 能够获得 7 级勾。
ChatGPT *Polaris Alpha 能够获得 6 级勾。
DeepSeek Without Thinking、Qwen 3-Max 与 DeepSeek** Thinking 能够在 SC(作者所在省份)进入 NOIP。
你可以在此处下载上述代码。