用统计全面分析NOIP2025的组题,似乎有大问题!
wjyppm1403 · · 科技·工程
前言
水洛咕的时候发现了炸鸡块君の文章,通过对 CSPS2025 和 NOIP2025 数据的对比,敏锐地指出了本次组题可能存在的不合理性。
回头看了一眼我那篇原本躺在专栏、准备投递到休闲娱乐版块的吐槽文,本来只想随便写写。但看着大佬们把数据分析发到了科技工程,我陷入了沉思。
结合了今年题目和知乎以及洛咕的一片哀嚎,我们容易发现今年的问题可能在于难度以及区分度,同时根据我身边同学数据发现大佬们的分数与其对应实力出现了明显的不匹配。
为了验证猜想,我们收集并校准了近 9553 名选手得分情况,并针对各省共计 186 位选手进行了深度的调研。通过 R 与 python,常见的统计学计算以及 CTT 反应理论来刻画了今年 NOIP 难度以及区分度。文章末尾将会附上全部数据的链接。
注意!本文仅对试卷在测量学意义上的表现进行分析,不涉及对出题人主观意图的推断。
:::info[关于数据误差的说明]
这里有必要提出,由于嘻嘻爱抚官方仅公布了考生的总分和获奖名单,并未公开每道题的具体得分。因此,本报告的数据建立在第三方的判题数据之上。为了确保解析不失真,我们利用官方发布的获奖名单,对 5030 条核心样本进行了严格的误差分析。:
我们将本地判题系统的总分与官方发布的实际总分进行了横向对撞,结果如下:
- 完全匹配率 (Exact Match): 84.39% 这意味着每 10 名考生中,有超过 8 人的本地成绩与官方成绩一分不差。
- 平均绝对误差 (MAE): 1.76 分 在满分 400 分的考试中,整体样本的平均误差不足 2 分。对于分析题目难度分布而言,这个误差级几乎可以忽略不计。
- 系统性偏差 (Bias): -1.09 分 数据显示 Bias 为负数,这意味着本地判题环境比官方环境略微严格。
为了排除测评性能导致的个别极端偏差,我们剔除了误差大于 15 分的脏数据。选择 15 分作为阈值,是因为其约为总分标准差(≈55)的 0.27 倍,明显超出正常测评噪声区间,更可能来源于判题环境异常或提交缺失。
问卷数据来自于 2025.12.7 发布的问卷,共 200 人填写,去除填写小于 2 分钟并人工核查,共 186 份有效。整体上更偏向于中高活跃度考生。但从分数分布形态(集中于 100–140)、奖项比例与官方公布名单的重合度来看,其整体结构与官方结果保持高度一致,因此在分布分析与相对比较层面具有代表性。问卷数据不用于推导统计结论,仅作为对客观得分分布的主观感受验证。
需要说明的是,本报告的核心结论主要依赖于分数分布形态、相对位置与相关结构(如区分度、相关系数、回归斜率),而非个体的精确分数值。 在 MAE≈1.76、Bias≈−1.09 的条件下,该级别误差对分布形态与统计相关性影响极小,不会改变结论方向。
:::
消失的区分度与难度梯度
初步分析
我们先上分析起手式,也是大部分 OJ 标配的前缀和,后缀和,分数分布的图像。
看总分分布图,我们发现了一个令人难泵的现象:在100分到140分这个区间,挤进了全省约60%的选手。
这意味着什么?这意味着如果你考了105分,你的排名可能在4000名;而你只要多骗到了10分,考到115分,你的排名可能就瞬间跳到了3000名。
提高一分干掉千人?
在
与CSPS2025初步比较
编者看到这个数据的时候其实已经绷不住想开🐎了,但是由于我们在做统计学分析。要严谨一点(
所有区间估计均通过 bootstrap(2000 次重采样)获得,不依赖正态性假设。
如果说只看 NOIP 的数据还不够直观,那么当我们把几个月前 CSPS 的数据(样本量 28802 左右)拿出来比较试试?毕竟前后相差才相差不到一个月实力还是基本匹配的。
我们将两场考试的核心统计指标进行对比:
| 统计指标 | CSP-S 2025 | NOIP 2025 | 差距分析 |
| 信度 (Cronbach's α) | 0.7238 | 0.6498 | NOIP 显著退步 |
| 标准差 (SD) | 81.75 | 55.74 | NOIP 离散度极差 |
| 标准测量误差 (SEM) | 42.96 | 32.99 |
试卷的稳定性
不是哥们你 NOIP 还没 CSPS2025 命题好吗😅😅😅😅
在统计学中,信度系数
虽然今年 CSPS 也普遍说难难难难难难,但从数据看,它成功跨过了 0.70 的及格线。这意味着 S 组的四道题在测量逻辑上是高度自洽的。
但是,你 NOIP 为更高级别的选拔,信度不仅没升,反而跌到了 0.7 以下。何意味?这说明 NOIP 的四道题之间关联度极弱。
拉开差距的能力
标准差(SD) 代表了把人拉开距离的能力。
- CSP-S 的标准差高达 81.75,说明选手被均匀地铺在了从 0 到 300+ 的广阔区间里,实力强一分,分数就多一分。
- NOIP 的标准差萎缩到了 55.74。
这是一个不好的数据。 既然 NOIP 的满分和 S 组一样都是 400 分,为什么标准差小了这么多为分数集中,误差对排名敏感。答案就是无论你是有 200 分水平的选手,还是 120 分水平的选手,因为中间题目的缺失,你们都被迫挤在了同一个分数段。
成绩波动的幅度
标准误(SEM):表示如果同一个人重复参加考试,他的得分可能上下波动的平均幅度。
虽然 NOIP 的 SEM(32.99) 看起来比 CSP-S(42.96)小,但这是一个致命的陷阱。
- 在 CSP-S 中,虽然误差有 43 分,但由于总分分布广(SD 82),这 43 分的波动通常只涉及 20% 左右的排名变动。
- 在 NOIP 中,由于所有人都挤在 100-140 分这个分数段里,这 33 分的误差,结合前面 10 分差出 1000 人,这个误差容易让选手原地爆炸。
最难泵的一集
我们利用分段线性回归、LOESS 局部回归以及分位数回归,对同一批选手的两次考试成绩进行了联动分析。图像反馈出的结论难泵得😅😅。
在分段线性回归中,模型自动识别出了一个极其显著的拐点——189.4 分。
- 在 189.4 分左侧: 曲线几乎是水平的。这意味着,如果你在 CSP-S 中考了 80 分、130 分甚至是 180 分,你在 NOIP 里的表现几乎没有太大区别——大家都被强制收敛在了
[100-\text{eps},100]+\text{eps} 的水平。 - 在 189.4 分右侧: 曲线突然像被踩了油门一样陡峭上升。只有越过这道关口,你在 CSP-S 里积累的实力,才能在 NOIP 中转化为分数。
你可能会说这数据这么离散你线性回归个蛋,但是我们要注意这个分段。注意到,这个数据及其奇怪。让我们查阅一下今年 CSP-S 的全国分数线数据:
- 全国前 10%:188 分。
- 全国前 20%:131 分。
- 全国前 42%:60 分。
发现那个恐怖的巧合了吗?回归分析给出的拐点(189.4),竟然与 CSP-S 的前 10% 门槛 188 分惊人地重合。
我到这里已经不想说啥了,这不太对吧😅😅😅
LOESS 局部回归图没啥太大好看的,大家可以在文末看一看。
接下来我们来看分数位回归图:
可以发现:
- 黑线(50%):依然爬得慢吞吞,直到 CSP-S 到了 300 分以上,中位数选手的 NOIP 成绩才勉强抬头看向 150 分。
- 红线(90%):几乎是以 30~45 度角的斜率狂飙。
这种现象在统计学上称为异方差性。它揭示了本次考试在高分段具有极强的不稳定性。在这里意味着 CSP-S 成绩对 NOIP 成绩的预测力在高分段和低分段是完全不对称的。低分段(CSP 0-180)完全无法预测 NOIP(全是 100 左右),只有高分段才有相关性。
由于题目难度梯度在 T1 和 T2 之间断了层,即使是高水平选手,一旦在 T2 的那个断层上失足(比如思路卡住或代码写挂),他就会瞬间从“红线”跌落到“黑线”,甚至直接掉进 100 分的深渊。
从主观感受来看题目
调查问卷
既然 T3 和 T4 大家都不会,那 4 个小时在考场干什么,坐牢吗?我们调取了 186 份有效问卷中的主观评价,将其与客观得分对撞,得到了极其讽刺的结论:
注:虽然问卷样本量有限,且属于自愿样本,可能存在被试偏倚(更容易吸引强烈情绪或对成绩有不满的人)。但其表现出的主观感受趋势与 9553 条客观得分数据的分布高度契合,互为印证。
- 压力峰值:55.9% 的人心理压力巅峰在 T2,16.1% 的人在最后 30 分钟彻底绝望。
- 情绪状态:
- T1:64% 的人“顺利推进”。
- T2:仅 18% 顺利,41% 长时间困惑,38% 完全无从下手。
- T3/T4:超过 50% 的人选择了“完全无从下手”。
- 最终评价:只有 17.7% 的人表示“情绪良好”,剩下的考生几乎全员处于紧张、焦虑、甚至 Panic(恐慌) 状态。
同时问卷中有一项极具讽刺意义的统计:
- T3:96% 的受访者认为其难度更适合“省选/NOI”级别。
- T4:93% 的受访者持同样观点。
- 梯度评价:88.6% 的受访者给出了负面评价(题目水平失衡、梯度不明显)。
问卷中的一个细节:38.7% 的人认为题目表述产生了争议性理解,且大部分指向了 T2。
想象一下这个场景:
你是一名 CSP-S 150 分的中等选手。你花了 30 分钟写完 T1,然后你进入 T2。接下来的 3.5 小时,你面对的是主观难度 4.18(满分 5 分)、主观压力 7.50 的 T2。你尝试了各种思路,却只得到了“长时间困惑” 和 “挫败感”。你转头去看 T3 和 T4,发现那是中位数为 0 的黑题。然后你终于写完,发现你看错题了。最终,你的 4 小时被折叠成了那 30 分钟。 剩下的 210 分钟,你在数据图表上被归类为“无效时长”。(这是我考场上的真实状况😭😭😭😭😭😭😭😭😭😭😭😭😭😭😭😭😭😭)
但是关键是你考场上什么也不知道啊!
同时接下来我们会放松一些筛选过的其他建议:
T1:
- “大样例没有答案为 0 的点,导致不特判挂 5 分。样例和数据是拿脚造的吗?”
- “假做法由于数据水过了官方数据,但样例 6 反而 WA 了。这卷子到底在测什么?”
- “一点区分度没有,调了 2 小时发现是贪心,脑力被硬控。”
T2:
这是全场骂声最密集的区域。问卷显示,55.91% 的选手在 T2 迎来了心理压力的峰值。同时出现大量的侮辱性词汇。
- “第二题难度飙升?老子考场上都要疯了。”
- “祝 T2 放紫(难度)的出题人全家在 xx 相遇。”(已删除部分侮辱语句)
- “位置严重不合理,这不是 NOIP T2,这是搞人心态。”
- “思路完全对,细节调了一场。这是与紫题大战(1/1)。”
T3/T4:
- “一看 mex 直接润了,省选好题,神题。”
- “T3 让我意识到,这个七年级学生未来打不了 NOI。这卷子是 NOI Plus 吗?”
- “与黑题大战(2/1),水平太低不做评价。”
- “明明可以多骗点分,为什么要放这种强度的题在 NOIP?”
从选手成绩来看题目
既然前面的回归分析已经指出了试卷在宏观选拔上的功能失效,那么接下来的 CTT(经典测验理论)指标,则是从严谨数据来给棺材钉上最后一刻钉子。
我们计算了本次考试的 CTT 核心指标。在教育测量学中,这些指标直接决定了一道题是否“合格”。
箱型图
在统计学中,箱线图的箱体(即颜色标注部分)代表了核心 50% 人群的得分区间。
- T1:箱子被挤压在 80 到 100 分的顶端,红钻平均分 83.1。这意味着对于绝大多数人,T1 是送分题。
- T2:箱子瞬间坠落到了 0 到 25 分的狭窄地带。
- T3/T4:箱子变成抽屉了,抽屉也算箱子吧……要不是我调了一下图像分布,图上的 T3 和 T4 几乎只剩下了一根紧贴 0 分线的横线,中位数死死地钉在 0 上。
对于 9553 名考生中的绝大多数(75% 以上),T3 和 T4 根本不是题目,而是试卷上的两行装饰。这在试卷评价中属于典型的测量功能丧失。
得分分布
图在文章末尾,大家可自行察看
第一题如下:
- 数据特征:
[100, 105) 分段高达 2634 人。 - 累计曲线: 绿色曲线在 90-100 分区间几乎是瞬时垂直上升。
T1 呈现出极端的天花板效应。对于近三成的选手来说,这道题的区分度极小。它唯一的贡献是提供了一个全员 100 分的起跑线,让大家误以为自己还在比赛中,直到撞向 T2。
第二题:
- 数据特征:
-
-
- 满分(100分):仅 409 人。
-
- 累计曲线: 红色曲线在 0-25 分区间剧烈下降后,剩下的 75 分区间几乎是趋近于平的直线。
根据前面的结论,这是全卷唯一的区分度来源,但它表现得极其低效。绝大多数人被卡在 25 分以下,只有极少数(4.2%)的糕手越过了这道坎。对于占据 60% 的中等生来说,T2 不是阶梯,而是深渊。
第三题第四题:
这是整张试卷最令人绝望的部分。
- T3 数据: 6833 人 缩在
[0, 4) 分段。 - T4 数据: 6783 人 缩在
[0, 4) 分段。 - 累计曲线: 绿色曲线(<=该分数)在 0 分处起跳即达到 70%
我很好奇你放这么高难度的题是为了区分谁?
难度与得分率
| 题号 | 平均分 | 得分率 (P) | 标准差 |
| #1 (T1) | 83.06 | 0.831 | 24.83 |
| #2 (T2) | 17.54 | 0.175 | 25.65 |
| #3 (T3) | 5.38 | 0.054 | 12.84 |
| #4 (T4) | 5.12 | 0.051 | 12.40 |
T1 得分率高达 0.83。在统计学上,当得分率超过 0.8 时,题目对于优秀选手的区分能力基本消失。从 T1 到 T2,得分率从 83% 暴跌至 17%。而 T3 和 T4 的得分率仅为 5%。这意味着全卷 75% 的题目对于 95% 的考生来说,是处于测量盲区的。但是要注意这是统计意义上的区分度缺失,并非出题完全失败。
区分度与题总相关
| 题号 | 高低分组区分度 (D) | 与总分相关 (r) | 修正题总相关( |
| #1 (T1) | 46.47 | 0.676 | 0.299 |
| #2 (T2) | 44.52 | 0.839 | 0.571 |
| #3 (T3) | 15.11 | 0.690 | 0.536 |
| #4 (T4) | 15.85 | 0.691 | 0.544 |
第一题的结论差不太多。
而 T2 的题总相关系数达到了 0.839(修正后 0.571),是全卷最高。这意味着:今年的 NOIP 实际上只有 T2 一道题在进行有效选拔。 你的总分排名,在统计学上几乎完全由 T2 这一道题的得分决定。
相关矩阵分析
通过 皮尔逊相关矩阵,我们可以观察到题目间的“协作关系”:
| 题目相关系数 | #1 (T1) | #2 (T2) | #3 (T3) | #4 (T4) |
| #1 (T1) | 1.000 | 0.300 | 0.201 | 0.208 |
| #2 (T2) | 0.300 | 1.000 | 0.540 | 0.543 |
| #3 (T3) | 0.201 | 0.540 | 1.000 | 0.548 |
| #4 (T4) | 0.208 | 0.543 | 0.548 | 1.000 |
- T1 与后三题的相关性极低(0.2-0.3)。这证明了我们之前的猜想:T1 的能力考察逻辑与后面完全脱节,它更像是一个签到题。
- T2、T3、T4 之间的相关性均超过了 0.54。这在统计学上说明它们考察的能力高度重叠。然而,既然能力重叠,为什么要做三道题?当 T3 和 T4 难度大到大家都拿不到分时,这两道题在测量学上就成了 T2 的冗余副本。
总结
我认为:NOIP 2025 难度过大,区分度不友好,组题有明显问题。我们可以看到:
- T1 过于简单,T2 跨度过大,导致 60% 的中等选手被迫在
[100, 140] 区间进行随机取分。 - 全卷 400 分中,有 200 分(T3+T4)对于 95% 的人来说不具备太大测量价值。而剩下的 200 分里,T1 无法区分高手,T2 却成了唯一的上升渠道。
- 回归曲线显示,CSP-S 189 分以下的选手,其在 NOIP 里的表现被降维打击,而且甚至 189 分对应的是全国前 10% 的选手。它告诉剩下 90% 的选手:在本次组题逻辑下,你过去一年的汗水、你对算法的理解、你从 CSP-S 50 分到 180 分的跨越,在统计图表上都是不可见的。
但是我们也要看到好的一面,其出题的质量是很高的,从选拔未来省队选手的目标来看,T2 是一道极高质量的题目。同时套给全省乃至全国最顶尖的 5% - 10% 的选手留出了极大的展示空间,同时阶梯状的表一步一步上升,体现了良好的区分度设计。但是:
我们尊重高质量题目的诞生,但我们更期待一个能够容纳更多梦想与努力的难度梯度。毕竟,统计学指标的下跌已经给出了最冷静的警示:当一把尺子只剩下最高处的刻度时,它便不再是一把好尺子。
希望这次出题组能够吸取教训,在接下来的考试中以合理的难度分布与区分度出题,让大家获得一个更好的体验吧。
数据参考与部分附表
数据参考:
- 熨斗平台测评数据。
- CCF NOIP2025 获奖名单。
- CCF CSPS2025 获奖名单。
- 【附代码】NOIP2025的组题确有问题?由 S->NOIP 的成绩散点图统计分析 - 洛谷专栏
数据下载链接。
LOESS 局部回归
T1 前后缀和:
T2 前后缀和:
T3 前后缀和:
T4 前后缀和: