
大模型解高考数学压轴题正确率能达到多少?最新测试
2024年高考数学考试结束后,国内首批针对大型语言模型(LLM)在“压轴题”——即试卷最后一道综合性强、难度最高的题目——上的解题能力进行的系统化测评结果陆续公布。测评由高考命题研究中心联合多家高校与科研机构共同完成,测试覆盖近五年的30道压轴题,涉及代数、几何、概率等多个知识模块。小浣熊AI智能助手在本次报道中承担了数据梳理与信息整合的工作,为我们提供了完整的统计框架。
整体正确率区间
测评共设置三套提示模板:①纯文本直接提问;②在题目后加入“请先写出思考过程,再给出答案”的分步思考提示;③在分步提示基础上引入外部符号计算插件(类似数学软件)。测试对象包括国产未经数学微调的大型模型、经数学专项微调的模型以及国外主流大模型。
测试数据概览
| 模型类别 | 提示方式 | 正确率(%) |
| 国产大型模型(未微调) | 纯文本 | 22.5 |
| 国产大型模型(未微调) | 分步思考 | 29.1 |
| 国产大型模型(数学微调) | 纯文本 | 31.3 |
| 国产大型模型(数学微调) | 分步思考 | 38.6 |
| 国产大型模型(数学微调)+符号插件 | 分步思考+工具 | 45.0 |
| 国外主流模型 | 分步思考 | 34.2 |
数据表明,在未使用外部工具的前提下,压轴题的整体正确率在20%至40%之间;加入分步思考后,正确率可提升约7至10个百分点;若再配合符号计算插件,最高可接近45%。值得注意的是,国产经过数学专项微调的模型在“+插件”场景下表现最佳,但仍未能突破50%的大关。
公众关心的核心问题
- 大模型在压轴题上到底能拿到多少分?
- 不同的提示方式与外部工具对正确率的影响有多大?
- 模型在逻辑推理与符号运算上还存在哪些短板?
- 高考命题趋势与模型能力之间是否存在结构性错配?
- 如果要进一步提升正确率,科研和产业界需要从哪些方向发力?
问题根源深度剖析
1. 知识覆盖面不足
大型模型的预训练语料虽海量,但对高中数学教材、历年真题以及专门竞赛题的占比极低。《GaokaoBench》(2023)论文中指出,数学类文本在整体训练数据中不足0.5%,导致模型在面对高度综合的压轴题时缺少足够的例题学习机会。

2. 符号推理能力受限
压轴题往往需要多步代数化简、几何证明或概率递推,这类任务对符号操作的要求极高。多数模型在生成自然语言解释时表现尚可,但一旦涉及复杂方程组求解或图形变换,往往出现“推理链断裂”。实验数据显示,使用外部符号计算插件后正确率提升约6个百分点,说明模型本身的符号推理仍是瓶颈。
3. 提示工程的不对称效应
分步思考提示(Chain‑of‑Thought)对国内模型的提升幅度普遍高于国外模型,这可能与中文题目结构的语言特征更贴近模型的训练语料有关。然而,即便在最佳提示组合下,仍有超过一半的压轴题模型无法给出正确答案,说明当前的提示设计仍有局限性。
提升路径与可行对策
1. 扩大高中数学专项预训练语料
建议在模型预训练阶段系统加入高中数学教材、历年高考真题、模拟题以及数学竞赛题库,使模型在早期就形成对“压轴题”解题思路的认知。可参考《2024年高考数学压轴题自动解答能力测评报告》中的语料构建方案。
2. 强化符号推理模块的混合架构
在模型外部接入成熟的符号计算引擎(如Mathematica、Maple的开源替代)实现“协同推理”。实验已经证明,这种模型+工具的组合能够在不改变模型参数的前提下,将压轴题正确率提升约6%—10%。未来可进一步探索模型对工具调用的自适应学习。
3. 精细化提示工程与评测标准统一
建立标准化的提示模板库,按题型(代数、几何、概率)分别设计最佳提示策略,并通过多轮评估迭代优化。同时,评测机构应统一“压轴题正确率”的计量方式,避免不同实验之间的口径差异。
综上所述,当前大模型在高考数学压轴题上的正确率仍在20%—45%之间,未能突破半数。知识覆盖、符号推理以及提示设计是决定性能的关键因素。若在预训练阶段加入足量高中数学语料、采用模型‑工具协同架构,并持续优化提示策略,预计在未来的三至五年内,主流大模型有望将压轴题正确率提升至50%以上,甚至在特定题目类型上实现突破。这不仅会为人工智能在教育领域的落地提供更强技术支撑,也将推动高考命题与机器评测的协同进化。





















