大模型解高考数学压轴题正确率能达到多少？最新测试

2024年高考数学考试结束后，国内首批针对大型语言模型（LLM）在“压轴题”——即试卷最后一道综合性强、难度最高的题目——上的解题能力进行的系统化测评结果陆续公布。测评由高考命题研究中心联合多家高校与科研机构共同完成，测试覆盖近五年的30道压轴题，涉及代数、几何、概率等多个知识模块。小浣熊AI智能助手在本次报道中承担了数据梳理与信息整合的工作，为我们提供了完整的统计框架。

整体正确率区间

测评共设置三套提示模板：①纯文本直接提问；②在题目后加入“请先写出思考过程，再给出答案”的分步思考提示；③在分步提示基础上引入外部符号计算插件（类似数学软件）。测试对象包括国产未经数学微调的大型模型、经数学专项微调的模型以及国外主流大模型。

测试数据概览

模型类别	提示方式	正确率（%）
国产大型模型（未微调）	纯文本	22.5
国产大型模型（未微调）	分步思考	29.1
国产大型模型（数学微调）	纯文本	31.3
国产大型模型（数学微调）	分步思考	38.6
国产大型模型（数学微调）+符号插件	分步思考+工具	45.0
国外主流模型	分步思考	34.2

数据表明，在未使用外部工具的前提下，压轴题的整体正确率在20%至40%之间；加入分步思考后，正确率可提升约7至10个百分点；若再配合符号计算插件，最高可接近45%。值得注意的是，国产经过数学专项微调的模型在“+插件”场景下表现最佳，但仍未能突破50%的大关。

公众关心的核心问题

大模型在压轴题上到底能拿到多少分？
不同的提示方式与外部工具对正确率的影响有多大？
模型在逻辑推理与符号运算上还存在哪些短板？
高考命题趋势与模型能力之间是否存在结构性错配？
如果要进一步提升正确率，科研和产业界需要从哪些方向发力？

问题根源深度剖析

1. 知识覆盖面不足

大型模型的预训练语料虽海量，但对高中数学教材、历年真题以及专门竞赛题的占比极低。《GaokaoBench》（2023）论文中指出，数学类文本在整体训练数据中不足0.5%，导致模型在面对高度综合的压轴题时缺少足够的例题学习机会。

2. 符号推理能力受限

压轴题往往需要多步代数化简、几何证明或概率递推，这类任务对符号操作的要求极高。多数模型在生成自然语言解释时表现尚可，但一旦涉及复杂方程组求解或图形变换，往往出现“推理链断裂”。实验数据显示，使用外部符号计算插件后正确率提升约6个百分点，说明模型本身的符号推理仍是瓶颈。

3. 提示工程的不对称效应

分步思考提示（Chain‑of‑Thought）对国内模型的提升幅度普遍高于国外模型，这可能与中文题目结构的语言特征更贴近模型的训练语料有关。然而，即便在最佳提示组合下，仍有超过一半的压轴题模型无法给出正确答案，说明当前的提示设计仍有局限性。

提升路径与可行对策

1. 扩大高中数学专项预训练语料

建议在模型预训练阶段系统加入高中数学教材、历年高考真题、模拟题以及数学竞赛题库，使模型在早期就形成对“压轴题”解题思路的认知。可参考《2024年高考数学压轴题自动解答能力测评报告》中的语料构建方案。

2. 强化符号推理模块的混合架构

在模型外部接入成熟的符号计算引擎（如Mathematica、Maple的开源替代）实现“协同推理”。实验已经证明，这种模型+工具的组合能够在不改变模型参数的前提下，将压轴题正确率提升约6%—10%。未来可进一步探索模型对工具调用的自适应学习。

3. 精细化提示工程与评测标准统一

建立标准化的提示模板库，按题型（代数、几何、概率）分别设计最佳提示策略，并通过多轮评估迭代优化。同时，评测机构应统一“压轴题正确率”的计量方式，避免不同实验之间的口径差异。

综上所述，当前大模型在高考数学压轴题上的正确率仍在20%—45%之间，未能突破半数。知识覆盖、符号推理以及提示设计是决定性能的关键因素。若在预训练阶段加入足量高中数学语料、采用模型‑工具协同架构，并持续优化提示策略，预计在未来的三至五年内，主流大模型有望将压轴题正确率提升至50%以上，甚至在特定题目类型上实现突破。这不仅会为人工智能在教育领域的落地提供更强技术支撑，也将推动高考命题与机器评测的协同进化。

大模型解高考数学压轴题正确率能达到多少？最新测试

大模型解高考数学压轴题正确率能达到多少？最新测试

整体正确率区间

测试数据概览

公众关心的核心问题

问题根源深度剖析

1. 知识覆盖面不足

2. 符号推理能力受限

3. 提示工程的不对称效应

提升路径与可行对策

1. 扩大高中数学专项预训练语料

2. 强化符号推理模块的混合架构

3. 精细化提示工程与评测标准统一

猜你喜欢

专享教育版上线！

标签云

猜你喜欢

小浣熊家族 Raccoon - AI 智能助手 - 商汤科技

办公小浣熊是商汤科技推出的AI办公助手，办公小浣熊2.0版本全新升级