| 

这项由清华大学跃迁实验室(LeapLab)与清华大学求真书院谐和开展的究诘,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.22074。有兴味深入了解的读者可以通过该编号查询完好意思论文。 教一个孩子解数学难题,最笨的方针是什么?把题目径直扔给他,作念对了夸一句,作念错了骂一顿,然后期待他下次就会了。任何有训戒的诚实齐知谈,着实有用的陶冶方式应该是把一起大题拆成几谈小题,让孩子一步一步爬楼梯,在每一级台阶上齐得到反馈,逐渐集结信心和材干,最终独处完成那谈蓝本看似望尘莫及的难题。 这个风趣风趣适用于东谈主类学生,相同适用于东谈主工智能。清华的究诘团队发现,面前主流的AI数学教练方式,正在犯"把难题径直扔给学生"这个经典造作。他们建议了一套名为SCRL(子问题课程强化学习)的新教练框架,用"出模拟题"的方式帮AI爬楼梯,让它在挑战奥林匹克级别数学难题时,平均获利晋升了整整4.1分——这在AI究诘领域是极度权贵的进步。 一、AI学数学:为什么"作念对了给糖,作念错了不给"的方法失效了 要相识这个究诘措置的问题,需要先明白现时AI是奈何学数学的。面前最流行的方式叫作念"基于可考证奖励的强化学习",英文缩写是RLVR。你可以把它相识成一种相当径直的教练机制:AI作念一起题,淌若最终谜底对了,就给它一颗糖(正向奖励);淌若答错了,就什么齐不给。AI在渊博次作念题、获奖或温存的轮回中,逐渐摸索出解题的规定。 这套方法在中等难度的数学题上效果可以。但当碰到着实的硬骨头,比如好意思国数学奥林匹克邀请赛(AIME)或外洋数学奥林匹克(IMO)级别的题目时,这套方法就哑火了。原因很通俗:这些题太难了,AI简直每次齐作念错,一颗糖齐拿不到。教练系统从没见过"作念对了"是什么花样,天然也就无从学习。 更灾祸的是,哪怕AI作念了一起题,差少量点就要答对了,这套系统也系数无法识别"差少量"和"差十万八沉"之间的区别。在它眼里,扫数造作齐是一样的造作,莫得任何中间反馈。就好像一位诚实更正作文,不论学生写得是90分水平照旧20分水平,只消不悦分,通通给零分——这么的反馈方式根底无法匡助学生进步。 究诘团队把这个镇定叫作念"梯度死区"。从数学角度解释,当AI简直每次齐作念不合某谈题时,用来更新AI参数的"学习信号"会趋近于零,AI堕入一种停滞情景,不论奈何熟识齐无法从这谈题上学到任何有用的东西。 面对这个窘境,究诘东谈主员之前尝试过两种挽回有预备。第一种是径直给AI"抄功课"——把正确的解题进程展示给AI,让它师法着学。这种方式访佛于诚实径直把谜底告诉学生,天然短期内有用,但学生弥远不会着实相识解题想路,一朝换个题型就抓瞎。第二种是给AI一些"指示前缀"——把正确解答的前几步径直塞给AI,让它只崇拜完成剩余部分。这就像是诚实照旧帮你作念结束前三步,只让你作念第四步。学生练的是"接盘"而非"从零开动",材干晋逝世然有限。 清华团队觉得,这两种有预备齐是在规避问题而非着实措置问题。他们想找到一种方式,让AI保持系数自主探索的同期,也能从每一次"天然没作念对但照旧作念到第几步了"的尝试中赢得挑升想风趣的学习信号。 二、"分级模拟题"的灵感:从数学竞赛的出题方式提及 清华团队的灵感来自一个相当直不雅的不雅察:数学竞赛的题目经常不是单一问题,而是一起分红四个小问的综合题。第一问最通俗,第二问稍难,第三问更难,第四问等于最终的中枢难题。每作念对一个小问,你齐能拿到分数,况且前一问的终了经常是解下一问的基础。 这种结构联想极其精妙。它让参赛者即使解不出终末一步,也能凭借前几步的正确推导拿到部分分数。关于出题者来说,这四个小问共同指点着学生一步步深入中枢常识点,难度层层递进,变成了一个天然的学习旅途。 SCRL框架系数模仿了这个想路。给定一起难题和它的参考解题进程,系统会用一个外部语言模子(上演"课程联想师"的脚色)从解题进程中提取出四个渐进式的子问题。这四个子问题难度递加,后头的问题昔时边问题的论断行为铺垫,但每个问题自身又是独处完好意思的,有明确的、可以自动考证对错的谜底。最伏击的是,第四个子问题等于原始的难题自身。 AI在教练时面对的不再是孤零零的一起难题,而是一份"四题连环卷"。它需要按模范作答,在一次谐和的推理进程中措置全部四谈题。每谈题的谜底齐夹在特殊标签之间,系统可以分别考证每谈题的对错。 这个联想有一个相当枢纽的场地:AI解题时并莫得得到任何"指示"或"前几步的谜底"。四个子问题齐所以完好意思独处的问题神态呈现的,AI必须系数依靠我方的材干从第一题作念到第四题,扫数的推理方法齐是我方生成的。这就幸免了之前"给指示"有预备的中枢弱势——AI练的弥远是完好意思的、自主的解题材干,而不是"接着别东谈主的想路持续作念"的材干。 三、"只算谐和答对的题":一个防舞弊的枢纽联想 子问题判辨措置了"学习信号太疏淡"的问题,但随之而来了一个新难题:淌若AI在第一题和第二题齐作念错了,却正好猜对了第三题,这个第三题的正确谜底应该给奖励吗? 清华团队觉得不应该。因为在正常的解题逻辑中,第三题的正确谜底是配置在第一、二题的正确论断之上的。淌若前两步齐是错的,第三步"正好对了"只是一种画虎不成,不代表AI着实掌执了这一步的推理。奖励这种"运谈好的造作"反而会给AI造作的导向,让它学通晓过猜谜底来期骗奖励,而不是着实相识解题逻辑。 因此,SCRL引入了一个叫作念"程度感知修正"的机制。系统只承认AI"谐和从第一题开动答对"的程度。淌若AI答对了第一、二题,但第三题答错了,那第四题即使答对,也不计入有用获利。换句话说,淌若AI的答题情况是"对、对、错、对",系统会把它视为"对、对、错、错"来处理。 这就好比一场致力赛:唯有当你告捷把致力棒传给下一个东谈主,下一个东谈主的奔波才算有用。淌若第三棒选手颠仆了,即使第四棒跑得再快,也不著收效,比赛在那一刻就照旧失败了。 这个联想透顶堵住了AI通过"非凡式猜题"来刷分的缝隙,确保奖励信号着实对应着有用的推理进步。 四、"按位置打分":比昔时的方式细巧了整整一个维度 措置了"哪些谜底算数"的问题之后,还剩下一个中枢技能问题:奈何把每谈子题的分数,精准地反馈给崇拜生成那谈题谜底的具体笔墨? 在之前的GRPO方法中,整谈题的最终得分被"平摊"给这谈题解答中的每一个字。不论是解题进程中的枢纽推导,照旧不足轻重的空话,齐收到同等程度的奖励或处分。这就像一位导演在评价一部电影时,不管哪个场景,一律给出相同的评价——演员、影相、配乐全部不分裂。清爽,这种不祥的反馈无法指挥团队改良着实需要改良的场地。 SCRL建议了"子问题级别归一化"的方法,让反馈细巧了整整一个维度。系统分别对四个子题各自打分,比较并吞组AI生成的多个解答在第一题上谁弘扬更好、在第二题上谁弘扬更好,依此类推。然后,每谈子题的独处评分,只被反馈给生成那谈子题谜底的那段笔墨。 这么作念的终了是,第一题推导写得好的部分,会得到针对第一题的专属奖励;第三题解答写得差的部分,会得到针对第三题的专属处分。AI能以更高的精度了解到我方的哪些推理方法是有价值的,哪些是走弯路的。 五、"两套卷子同期练":腐臭AI健忘奈何答原题 到这里,系统还濒临终末一个试验问题:AI在教练中反复练的是"四题连环卷"形态,但在着实查考时,它面对的是原始的单题形态。淌若教练和测试的题目神态各异太大,AI可能会缓缓"健忘"奈何径直申诉单谈难题,而变得只会答形态化的多题卷子。 为了腐臭这种情况,SCRL选拔了"混杂教练"的政策。每次教练时,系统同期给AI嘱咐两种功课:一半是"四题连环卷"形态的课程题,用子问题级别的细巧反馈来教练;另一半是原始的单题形态,即时比分网用传统的举座打分方式来教练。两种教练在并吞次参数更新中共同阐扬作用。 这就像一位高考生的温习讨论:一部分时分作念判辨熟识,专注于每个常识点;另一部分时分作念完好意思的模拟卷,保持对全题的举座嗅觉。两者不可偏废,互相补充。 六、数学解说:为什么这个方法表面上一定有用 究诘团队不知足于只是用实验终了语言,他们还从数学角度严格解说了SCRL有用的根底原因。 中枢想路是这么的。在数学上,可以用一个叫作念"有用梯度信息矩阵"的量来臆测AI从一起题上能学到几许东西——矩阵的最小特征值越大,学习信号就越强,AI进步得越快;淌若这个值趋近于零,AI就堕入了"梯度死区",学习停滞。 究诘团队用定理严格解说:当一起题关于现时AI来说太难,正确率接近零时,径直在这谈题上教练的学习信号也会趋近于零,印证了"梯度死区"的存在。与此对应,另一个定清爽说:只消子问题的正确率比原题高(这是课程联想的基本前提),在子问题上的学习信号就能保持在一个挑升想风趣的正值上,从根底上跳出死区。更精妙的是,原题越难(正确率越低),子问题方法相干于径直教练的上风就越大——这在数学上体现为规复比率是原题正确率的倒数级别。 通俗类比:一起每100东谈主中唯有1东谈主能答对的极难题,用子问题方法教练的效果比径直教练好约100倍的量级;而一起每10东谈主中有1东谈主能答对的中等难题,上风唯有约10倍。越是绝世难题,这套方法就越是枢纽。 七、实验终了:在七个数学竞赛基准上全面最初 表面解说完成后,究诘团队进行了大界限的实验考证。他们使用了两种主流的大语言模子:阿里的Qwen3系列(包括4B和14B参数目的版块)以及Meta的Llama3.2系列(3B参数目版块),在七个数学推理基准上进行了全面测试,这七个基准涵盖了从相对较难的奥林匹克数学题(OlympiadBench)到顶级竞赛题(AIME2024、AIME2025、IMO-Bench)的完好意思难度谱系。 在中等界限的Qwen3-4B模子上,SCRL的弘扬最为隆起。在七个基准上的对等分,SCRL达到了35.0%,而相同的模子用传统GRPO方法教练唯有30.9%,差距达到4.1个百分点。和最强的竞争方法QuestA(32.0%)比拟,SCRL还最初了3.0个百分点。在最难的AIME2025上,SCRL取得了15.3%的获利,而QuestA唯有11.7%,传统GRPO更是唯有7.2%。 在更大界限的Qwen3-14B模子上,SCRL相同取得了最高的对等分38.3%,比GRPO的36.4%晋升了1.9个百分点。 除了"作念一次能不成作念对"(pass@1)这个预备,究诘团队还测试了pass@64,即给AI64次契机,只消有一次作念对就算告捷。在这个反馈AI"探索材干"的预备上,SCRL的晋升愈加清爽——在三个最难的基准(AIME24、AIME25、IMO-Bench)上,pass@64比GRPO晋升了4.6个百分点,阐明SCRL教练的AI不仅在旧例情况下弘扬更好,在面对极难问题时也具备更强的探索和尝试材干。 教练进程中的数据也很能阐明问题。究诘东谈主员跟踪了AI好像措置的题目数目随教练进行的变化。SCRL教练的AI解题材干膨胀得更快,最终能秘籍的题目范围也比GRPO更广,况且这种材干的晋升并不单体当今"课程形态"的题目上,在原始的单题形态下相同有所改善,阐明课程教练的收益简直地迁徙到了试验解题材干上。 八、不依赖顶级AI出题,弱少量的模子也能用 亚搏体育官方网站 - YABO这个究诘框架有一个潜在的悼念:生成子问题需要用外部语言模子,淌若这个"出题模子"水平不高,生成的子问题质料差,扫数这个词系统还能使命吗? 究诘团队专门对此进行了测试。他们分别用顶级的DeepSeek-V3.2和较弱的Qwen3-4B-Instruct(与被教练的模子同等界限)来生成子问题,然后在相同的教练管线下进行对比。终了发现,用弱模子生成子问题时,SCRL依然比传统GRPO非凡2.7个对等分;用强模子生成子问题时,晋升幅度进一步扩大到3.9个对等分。 这阐明SCRL框架自身的有用性并不依赖于一个尽头巨大的外部出题模子,弱模子生成的子问题哪怕质料一般,也足以提供挑升想风趣的课程结构。天然,更好的出题模子能带来更大的收益,但这不是系统运作的必要条目。 九、细节考证:删掉任何一个联想齐会变差 究诘团队还作念了一系列"拆零件"的实验,考证系统中每个联想决策的必要性。 第一个测试是去掉"程度感知修正"机制,允许第三、四题即使在前边作念错的情况下也能赢得奖励。终了对等分从44.2降到了41.9,阐明这个防舞弊机制是简直有用的,不单是表面上好意思瞻念。 第二个测试是把"子问题级别打分"换回"举座打分",即天然出了四谈子题,但仍然只珍视终末那谈原题对不合,课程题只是行为扶助形态使用。终了对等分变成了43.9,比完好意思版SCRL的44.2略低,但比莫得课程的GRPO的40.3仍然非凡不少。这阐明只是是把难题终止来问,让AI熟识多步推理,自身就有一订价值;但细巧到子题级别的信用分派,能在这个基础上进一步晋升性能。 第三个测试是改变子问题的数目K。当K从默许的4裁汰到3或2时,性能齐有所下跌,但即使唯有K=2(唯有两谈子题),也仍然比单纯的GRPO要好。K越大,AI在每次熟识中能赢得学习信号的契机就越多,但同期也对AI建议了更高的要求,需要它谐和答对更多题。K=4是究诘团队觉得最稳妥的均衡点。 十、超出数学领域:在代码生成和科学问答上也有晋升 究诘效果不仅限于数学领域。究诘团队还把用SCRL教练的Qwen3-14B模子放到了三个系数不同的任务上进行测试:科学常识问答(GPQA)、代码生成(HumanEval)和竞争性编程(LiveCodeBenchv6)。 终了知道,SCRL在这三个任务上的对等分为51.67,而传统GRPO唯有48.37,原始未教练的基础模子是47.20。三项任务中SCRL分别比GRPO高:GPQA高4.55分(41.41对36.86)、HumanEval高4.87分(89.02对84.15)、LiveCodeBench高0.47分(24.57对24.10)。 这个终了阐明,SCRL教练的不是针对特定题型的手段,而是一种更底层的、可迁徙的多步推理材干。这种材干在需要分方法措置问题的任务中渊博有用,不论问题是数学、科学照旧编程神态的。 说到底,清华团队作念的这件事可以用一句话轮廓:他们训诲了AI我方给我方出熟识题,况且出的熟识题质料还可以。通过把一起浩劫题拆成四谈递进的小题,AI终于有契机在每一次熟识中赢得挑升想风趣的反馈,而不是在无限的失败华夏地打转。 这对平常东谈主的风趣风趣是什么?最径直的影响是:翌日的AI数学助手和通用推理AI将会更擅所长理着实困难的问题,而不单是是常见题型。当你碰到一起辣手的解说题或复杂的工程计较时,AI提供匡助的材干将会清爽增强。更长远的影响在于,这套教练想路不限于数学,可以实行到任何需要多方法推理的领域,比如法律分析、医学会诊、软件调试等。 天然,这套方法也有它的局限性。构建子问题需要依赖外部语言模子来扶助,加多了教练前的准备使命量。此外,子问题必须有明确可考证的谜底,关于那些莫得模范谜底、需要主不雅判断的洞开式任务,这套方法面前还不太好用。 一个趣味的延长想考是:AI替我方联想熟识题这件事,其实和东谈主类学习中"费曼手段"有不谋而合之妙——着实相识一个常识点的记号,是你能把它判辨并讲授给别东谈主听。SCRL让AI在某种风趣风趣上作念到了这少量:通过相识一起难题的解题结构,把它漂流为一系列可以一步步考证的子标的。 有兴味进一步了解技能细节的读者,可以在arXiv上搜索论文编号arXiv:2605.22074,获取完好意思的原始论文。 Q&A Q1:SCRL方法中的"子问题"是AI我方想出来的,照旧东谈主工联想的? A:子问题是由外部语言模子(如DeepSeek-V3.2或Qwen3-4B-Instruct)字据原题的参考解答自动生成的,不需要东谈主工逐题联想。生成时需要提供原题、模范谜底和参考解题进程,外部模子会从解题方法中提取出四个难度递进的子问题,扫数这个词进程是离线自动完成的。 Q2:SCRL教练出来的模子,申诉问题时还会出现那四个子问题的形态吗? A:不会。SCRL选拔了"混杂教练"政策,一半教练用带子问题形态的课程题,另一半用原始单题形态。测试时使用的亦然模范的单题指示形态,模子会径直给出最终谜底,不会带有子问题的标签结构。子问题形态只在教练进程中出现,不影响最终使用时的对话体验。 Q3:SCRL和径直给AI看正确解题进程(监督微调)比拟,哪个效果更好? A:从实验数据看,SCRL举座优于监督微调(SFT)。以Qwen3-4B为例,SFT的对等分是28.0,而SCRL达到35.0即时比分网2026世界杯赛事实时数据,最初了整整7分。监督微调让AI记挂模范谜底,而SCRL让AI在自主探索中学习推理结构,两者培养的材干有实质区别,在面对新题时SCRL教练出的模子泛化材干更强。
|