当我尝试使用 DeepSeek 模型求解今年 CSP-J/S 题目
*当官方数据更新后将会更新测试官方成绩。
又是一年 CSP,我想到了去年的帖子 https://www.luogu.com.cn/discuss/1001768。DeepSeek 最近升级过,于是我想测试一下现在的 DeepSeek 能获得多少分。
测试的方法和上面帖子相同。但是由于我的电脑不支持模拟出真实评测状况下代码是否会超时/超空间,所以每次生成代码如果通过样例则我会提交一遍查看结果,如果有样例范围内的 TLE/MLE 则我会将评测情况告诉 DeepSeek。也就是相当于半个 IOI 赛制了(因为有的样例不会有数据那么强)。
测试结果(DeepSeek 在 J 组和 S 组分别获得
| J 组题目 | T1 | T2 | T3 | T4 | tot |
|---|---|---|---|---|---|
| 对话次数* | |||||
| 得分【民间】 | |||||
| 得分【官方】 |
| S 组题目 | T1 | T2 | T3 | T4 | tot |
|---|---|---|---|---|---|
| 对话次数* | |||||
| 得分【民间】 | |||||
| 得分【官方】 |
*"
从 S 组的成绩可以看出 CCF 和洛谷民间数据的强度对比。比较令人惊讶的是 T2 民间数据没过的代码可以通过官方数据。
【提示】:此处只用于测试目的(且未提交至自测赛)。比赛中请勿使用 AI 辅助参赛。