当我尝试使用 DeepSeek 模型求解今年 CSP-J/S 题目

· · 休闲·娱乐

*当官方数据更新后将会更新测试官方成绩。

又是一年 CSP,我想到了去年的帖子 https://www.luogu.com.cn/discuss/1001768。DeepSeek 最近升级过,于是我想测试一下现在的 DeepSeek 能获得多少分。

测试的方法和上面帖子相同。但是由于我的电脑不支持模拟出真实评测状况下代码是否会超时/超空间,所以每次生成代码如果通过样例则我会提交一遍查看结果,如果有样例范围内的 TLE/MLE 则我会将评测情况告诉 DeepSeek。也就是相当于半个 IOI 赛制了(因为有的样例不会有数据那么强)。

测试结果(DeepSeek 在 J 组和 S 组分别获得 400282 分):

J 组题目 T1 T2 T3 T4 tot
对话次数* 1 1 1 1+2 4+2
得分【民间】 100 100 100 100 400
得分【官方】 100 100 100 100 400
S 组题目 T1 T2 T3 T4 tot
对话次数* 2 6+1 3 5+2 15+3
得分【民间】 100 88 100 24 312
得分【官方】 100 100 70 12 282

*"a+b"表示 a 次成功生成代码,另外有 b 次对话,由于无限输出、思考过长被掐断等原因未能成功生成代码。

从 S 组的成绩可以看出 CCF 和洛谷民间数据的强度对比。比较令人惊讶的是 T2 民间数据没过的代码可以通过官方数据。

【提示】:此处只用于测试目的(且未提交至自测赛)。比赛中请勿使用 AI 辅助参赛。