当我尝试使用 DeepSeek 模型求解今年 CSP-J/S 题目

cff_0102 · 2025-11-03 15:32:41 · 休闲·娱乐

*当官方数据更新后将会更新测试官方成绩。

又是一年 CSP，我想到了去年的帖子 https://www.luogu.com.cn/discuss/1001768。DeepSeek 最近升级过，于是我想测试一下现在的 DeepSeek 能获得多少分。

测试的方法和上面帖子相同。但是由于我的电脑不支持模拟出真实评测状况下代码是否会超时/超空间，所以每次生成代码如果通过样例则我会提交一遍查看结果，如果有样例范围内的 TLE/MLE 则我会将评测情况告诉 DeepSeek。也就是相当于半个 IOI 赛制了（因为有的样例不会有数据那么强）。

测试结果（DeepSeek 在 J 组和 S 组分别获得 400 和 282 分）：

J 组题目	T1	T2	T3	T4	tot
对话次数*	1	1	1	1+2	4+2
得分【民间】	100	100	100	100	400
得分【官方】	100	100	100	100	400

S 组题目	T1	T2	T3	T4	tot
对话次数*	2	6+1	3	5+2	15+3
得分【民间】	100	88	100	24	312
得分【官方】	100	100	70	12	282

*"a+b"表示 a 次成功生成代码，另外有 b 次对话，由于无限输出、思考过长被掐断等原因未能成功生成代码。

从 S 组的成绩可以看出 CCF 和洛谷民间数据的强度对比。比较令人惊讶的是 T2 民间数据没过的代码可以通过官方数据。

【提示】：此处只用于测试目的（且未提交至自测赛）。比赛中请勿使用 AI 辅助参赛。