各类大模型的 CSP 分数测试

· · 休闲·娱乐

这项测试主要由 @Destinyle 完成。
所有模型的提示词均为“请解决 pdf 中的 xxx 问题,给出 C++ 完整代码,禁止使用联网搜索。”并手动检查思考链中是否存在联网证据。
注意:本次测试中所有模型均只有一次给出代码的机会。

Model club road replace employ \sum
ChatGPT GPT-5.1 Thinking(标准模式) 100_{\ \text{5m37s}} 100_{\ \text{9m11s}} 100_{\ \text{8m51s}} 8_{\ \text{13m39s}} 308_{\ \text{37m22s}}
ChatGPT GPT-5 Pro 100_{\ \text{11m40s}} 64_{\ \text{18m40s}} 25_{\ \text{18m10s}} 100_{\ \text{17m52s}} 289_{\ \text{66m22s}}
Grok 专家模式 55_{\ \text{8m5s}} 80_{\ \text{4m}} 60_{\ \text{9m17s}} 76_{\ \text{13m37s}} 271_{\ \text{34m59s}}
ChatGPT GPT-5 Thinking(进阶模式) 30_{\ \text{7m3s}} 56_{\ \text{8m17s}} 100_{\ \text{7m14s}} 4_{\ \text{7m6s}} 190_{\ \text{33m40s}}
豆包 Thinking 100_{\ \text{Unknown}} \text{Timeout} 85_{\ \text{Unknown}} \text{Timeout} 185
Gemini 2.5 Pro 55_{\ \text{4m}} 36_{\ \text{3m2s}} 90_{\ \text{3m9s}} 4_{\ \text{4m7s}} 185_{\ \text{14m11s}}
ChatGPT *Polaris Alpha** 100 16 35 4 155
DeepSeek Without Thinking 55 32 35 4 126
Qwen 3-Max 15_{\ \text{Unknown}} 76_{\ \text{Unknown}} 25_{\ \text{Unknown}} 4_{\ \text{Unknown}} 120_{\ \text{Unknown}}
DeepSeek Thinking 55_{\ \text{7m25s}} 24_{\ \text{5m44s}} 30_{\ \text{4m47s}} 4_{\ \text{4m59s}} 113_{\ \text{22m57s}}

*: Polaris Alpha 是在 OpenAI 官方发布 GPT-5.1 系列模型前,在民间开放的 Alpha 模型,该名称为 GPT-5.1 Alpha 的代号。

根据目前分数预测:
ChatGPT GPT-5.1 Thinking(标准模式)与 ChatGPT GPT-5 Pro 能够进入 WC。
Grok 专家模式、ChatGPT GPT-5 Thinking(进阶模式)、豆包 Thinking 与 Gemini 2.5 Pro 能够获得 7 级勾。
ChatGPT *Polaris Alpha 能够获得 6 级勾。
DeepSeek Without Thinking、Qwen 3-Max 与 DeepSeek** Thinking 能够在 SC(作者所在省份)进入 NOIP。

你可以在此处下载上述代码。