浏览完整试题(摘编自袁岚峰《DeepSeek大模型推理算法其实很简单》) 材料二: DeepSeek团队不走平常路,目标要培养一个天才学生(R1-Zero),与普通学生刷题不同,他们认为只会刷题的学生往往死记硬背,无法推理解决复杂的问题。而天才是会自己独立思考的,光靠填鸭式的刷题无法培养天才,于是他们尝试一开始就不让它“刷题”(灌大量语料),而是直接让它去考试或者去挑战一些难题,让它自己对考试的错题进行分析、回溯、反思,不断摸索,不断进步。 结果你猜怎么着?这种看似“野蛮”的训练方式,竟然培养出了推理能力超强的天才学生。DeepSeek-R1-Zero在各种推理能力测试中表现惊艳,甚至还展现出一些意想不到的“超能力”。 “自我验算”技能:模型自己做完题后,还会“回头检查”,看看答案对不对,如果发现错了,还会自己改正。这简直就像考试时,做完题还会认真验算一样,太自觉了。 “反思总结”技能:模型还能“反思”自己的思考过程,分析哪里做得好,哪里做得不好,简直就是“学而时习之”的AI版。 “超长解题思路”:模型能够生成非常详细的解题步骤,一步一步地展示它是怎么思考的。这就像考试时,不仅能写出答案,还能把详细的解题过程都写出来。 DeepSeek-R1-Zero的这些推理能力,都是纯粹通过强化学习“自己长出来”的,没有借助任何“刷题”数据的帮助。 (摘编自吴知远《DeepSeek-R1训练过程的通俗讲解》) 1. 下列对材料中相关概念的理解和分析,不正确的一项是( ) A. “温度”是调控模型输出的参数,低温可使生成结果更稳定可靠,高温可增加输出序列的灵活性。 B. “幻觉”指大模型依据统计概率生成貌似合理实则失真的答案,这些信息容易误导使用者的判断。 C. DeepSeek“思维链”通过分步训练使模型获得逻辑推理能力,因此需要人工预先制作解题的标准范例。 D. “刷题”是与“强化学习”相对立的概念,前者只是灌输大量语料,后者则会在反思推理中提升能力。 2. 根据材料二内容,下列说法正确的一项是( ) A. DeepSeek团队让模型通过挑战难题学会了逻辑推理,它就不会出现做错题的情况。 B. R1-Zero像人考试主动校验答案一样进行“自我验算”,表明其已具备人类思维。 C. R1-Zero能够生成详细的解题步骤,思维链越长逻辑水平就越高,结论就越准确。 D. R1-Zero的逻辑能力完全依赖强化学习自发形成,没有借助任何刷题数据的帮助。 3. 下面是DeepSeek思考解答数学题的部分过程,对其解说不正确的一项是( )