各类大模型的 CSP 分数测试

sto_clx_orz · 2025-11-13 22:40:13 · 休闲·娱乐

这项测试主要由 @Destinyle 完成。
所有模型的提示词均为“请解决 pdf 中的 xxx 问题，给出 C++ 完整代码，禁止使用联网搜索。”并手动检查思考链中是否存在联网证据。
注意：本次测试中所有模型均只有一次给出代码的机会。

Model	club	road	replace	employ	\sum
ChatGPT GPT-5.1 Thinking（标准模式）	100_{\ \text{5m37s}}	100_{\ \text{9m11s}}	100_{\ \text{8m51s}}	8_{\ \text{13m39s}}	308_{\ \text{37m22s}}
ChatGPT GPT-5 Pro	100_{\ \text{11m40s}}	64_{\ \text{18m40s}}	25_{\ \text{18m10s}}	100_{\ \text{17m52s}}	289_{\ \text{66m22s}}
Grok 专家模式	55_{\ \text{8m5s}}	80_{\ \text{4m}}	60_{\ \text{9m17s}}	76_{\ \text{13m37s}}	271_{\ \text{34m59s}}
ChatGPT GPT-5 Thinking（进阶模式）	30_{\ \text{7m3s}}	56_{\ \text{8m17s}}	100_{\ \text{7m14s}}	4_{\ \text{7m6s}}	190_{\ \text{33m40s}}
豆包 Thinking	100_{\ \text{Unknown}}	\text{Timeout}	85_{\ \text{Unknown}}	\text{Timeout}	185
Gemini 2.5 Pro	55_{\ \text{4m}}	36_{\ \text{3m2s}}	90_{\ \text{3m9s}}	4_{\ \text{4m7s}}	185_{\ \text{14m11s}}
ChatGPT Polaris Alpha*	100	16	35	4	155
DeepSeek Without Thinking	55	32	35	4	126
Qwen 3-Max	15_{\ \text{Unknown}}	76_{\ \text{Unknown}}	25_{\ \text{Unknown}}	4_{\ \text{Unknown}}	120_{\ \text{Unknown}}
DeepSeek Thinking	55_{\ \text{7m25s}}	24_{\ \text{5m44s}}	30_{\ \text{4m47s}}	4_{\ \text{4m59s}}	113_{\ \text{22m57s}}

*: Polaris Alpha 是在 OpenAI 官方发布 GPT-5.1 系列模型前，在民间开放的 Alpha 模型，该名称为 GPT-5.1 Alpha 的代号。

根据目前分数预测：
ChatGPT GPT-5.1 Thinking（标准模式）与 ChatGPT GPT-5 Pro 能够进入 WC。
Grok 专家模式、ChatGPT GPT-5 Thinking（进阶模式）、豆包 Thinking 与 Gemini 2.5 Pro 能够获得 7 级勾。
ChatGPT *Polaris Alpha 能够获得 6 级勾。
DeepSeek Without Thinking、Qwen 3-Max 与 DeepSeek** Thinking 能够在 SC（作者所在省份）进入 NOIP。

你可以在此处下载上述代码。