蘋果新論文分析DeepSeek-R1遇到復雜度閾值后準確率崩潰問題

2025年6月10日 04:32

相信使用過DeepSeek-R1模型的人，對于它在給出答案之前的思考過程并不陌生，這也是包含DeepSeek-R1在內的大型推理模型（LRM，LargeReasoningModel）備受推崇的原因之一。

然而，由蘋果公司六位研究人員組成的團隊卻對此提出了質疑。通過讓模型解答各種謎題，研究團隊發現DeepSeek-R1、o3-mini和Claude-3.7-Sonnet-Thinking這幾款前沿大型推理模型在超過某一復雜度閾值之后，它們的準確率會出現全面崩潰。

圖|相關論文的六位作者，右二為薩米·本吉奧（SamyBengio）（來源：資料圖）

X上有一名網友總結稱，蘋果這是當了一次加里·馬庫斯（GaryMarcus），其實加里·馬庫斯本人也在領英發帖肯定了蘋果這篇論文。他寫道：“蘋果公司最新發表的關于大語言模型中‘推理’能力的論文頗具震撼力。我在一篇周末長文中解釋了其中的原因（并探討了一種可能的反對意見），以說明為何大家其實不應感到太過驚訝。”

在加里·馬庫斯的“周末長文”里他寫道：“這篇蘋果公司的新論文進一步佐證了我本人的批評觀點：即便最新研發的所謂‘推理模型’已經迭代超越o1版本，但在漢諾塔等經典問題上，它們依然無法實現分布外可靠推理。對于那些寄希望于‘推理能力’或‘推理時計算’能讓大語言模型重回正軌、擺脫單純規模擴張卻屢屢失敗（始終無法產出配得上‘GPT-5’名號的技術突破）的研究者而言，這無疑是個壞消息。”

（來源：資料圖）

這些謎題具有以下特點：

（1）能夠提供對于復雜度的精細控制；

（2）避免現有基準中常見的污染；

（3）僅需依賴明確給定的規則，強調算法化推理能力；

（4）支持基于模擬器的嚴格評估，能夠實現精確的解決方案檢查和詳細的故障分析。

通過實證研究，他們揭示了關于當前大型推理模型的幾個關鍵發現：

首先，盡管大型推理模型通過強化學習能夠學習復雜的自我反思機制，但它們未能為規劃任務開發出可泛化的問題解決能力，在超過一定的復雜度閾值后，性能會降至零。

其次，研究團隊在等效推理計算下對大型推理模型和標準大模型的比較揭示了三種不同的推理機制。

第一種機制是：對于更簡單、組合性較低的問題，標準大模型表現出更高的效率和準確性。

第二種機制是：隨著問題復雜度的適度增加，大型推理模型獲得了優勢。

第三種機制是：當問題隨著組合深度的增加而變得復雜時，兩類模型都經歷了徹頭徹尾的性能崩潰。

（來源：資料圖）

這表明，大型推理模型的推理能力存在一個根本性限制：其推理時間會隨著問題復雜度的增長而顯著增加。

此外，通過對中間推理軌跡的分析，研究團隊發現了與問題復雜度相關的規律性現象，即在較簡單的問題中，推理模型往往能快速找到錯誤解，但卻仍會低效地繼續探索錯誤選項，這種現象便是人們常說的“過度思考”。

在中等復雜度的問題中，模型需要經過對大量錯誤路徑的廣泛探索后，才能找到正確解。而超過一定的復雜度閾值，模型完全無法找到正確解。

北京郵電大學副教授白婷告訴DeepTech，跟人類思維方式相近，對于復雜問題，雖然不知道什么是正確的答案，但是很多時候知道什么是不正確的。具體而言，這跟求解空間大小有關系，簡單問題的求解空間因邏輯鏈條簡短、特征匹配度高，正確解往往天然處于思維路徑的前端，而復雜問題的解空間因涉及多維度變量耦合、邏輯層級嵌套而呈現指數級膨脹，求解空間龐大，客觀上表現為思維序列中的相對后置性。推理模型的“思維”內部發生了什么？

研究中，大多數實驗都是在推理模型及對應的非推理模型上進行的，例如Claude3.7Sonnet（有推理/無推理）和DeepSeek-R1/V3。研究團隊選擇這些模型是因為與OpenAI的o系列等模型不同的是，它們允許訪問思維token。

對于每個謎題實例，研究團隊生成25個樣本，并報告了每個模型的平均性能。

為了更深入地了解推理模型的思考過程，研究團隊對它們的推理痕跡進行了細致的分析。

期間，他們通過謎題實驗環境的構建，實現了對模型最終答案之外的深度解析，從而能夠對其生成的推理軌跡（即“思考過程”）進行更精細的觀測與分析。

具體來說，他們借助謎題模擬器，對模型思維過程中探索的中間解進行了提取與分析。

隨后，他們考察了這些中解的模式和特征、相對于推理過程中順序位置的正確性，以及這些模式如何隨著問題復雜度的增加而演變。

對于這一分析，研究團隊重點關注了Claude3.7Sonnet推理模型在謎題組實驗中產生的推理痕跡。

對于痕跡中確定的每個中間解法，研究團隊記錄了以下內容：（1）其在推理軌跡中的相對位置（按總思維長度歸一化），（2）經研究團隊的謎題模擬器驗證的其正確性，（3）相應問題的復雜度。

這使得研究團隊能夠描述整個推理過程中解決方案形成的進展和準確性。

然而，對于更復雜的問題，這一趨勢會發生變化——解決方案的準確性會隨著思考的推進而提高，直至達到某個閾值。超過這個復雜度閾值，在“崩潰模式”下，模型的準確率為零。

白婷告訴DeepTech，模型在復雜問題中需要多次推理，在一直沒有正確解的前提下，模型推理機制中有可能采用了多次迭代推理生成效率優化策略，或許是防止迭代過多的一種資源保護策略。因此，本次論文中的發現需要從模型實現層面去進行細致的分析和驗證。

白婷指出，大模型的推理過程本質上是記憶模式的調用也是有可能的。對于DeepSeek-R1、o3-mini這類模型，其表現高度依賴訓練數據中記憶模式的覆蓋范圍，當問題復雜度突破記憶模式的覆蓋閾值（如本次蘋果研究團隊設計的可控謎題環境），模型便陷入“零準確率”狀態。

雖然本次謎題環境允許對問題復雜度進行細粒度控制的受控實驗，但它們僅代表推理任務的一小部分，可能無法捕捉到現實世界或知識密集型推理問題的多樣性。

需要指出的是，本研究主要基于黑箱API訪問封閉的前沿大推理模型，這一限制使研究團隊無法分析其內部狀態或架構組件。

此外，使用確定性謎題模擬器時，研究團隊假設推理可以一步一步地得到完美驗證。然而，在結構化程度較低的領域，這種精確的驗證可能難以實現，從而限制了該分析方法向更廣泛推理場景的遷移。

總的來說，研究團隊通過可控的解謎環境，從問題復雜度的角度考察了前沿大型推理模型。這一成果揭示了當前模型的局限性：即盡管它們擁有復雜的自我反思機制，但這些模型在超過特定復雜度閾值后，仍然無法發展出可泛化的推理能力。研究團隊認為，本次成果或許能為研究這些模型的推理能力鋪平道路。

免責聲明:蘋果新論文分析DeepSeek-R1遇到復雜度閾值后準確率崩潰問題文章轉發自互聯網，版權歸其所有。
文章內容不代表本站立場和任何投資暗示。加密貨幣市場極其波動，風險很高，可能不適合所有投資者。在投資加密貨幣之前，請確保自己充分了解市場和投資的風險，并考慮自己的財務狀況和風險承受能力。此外，請遵循您所在國家的法律法規，以及遵守交易所和錢包提供商的規定。對于任何因使用加密貨幣所造成的投資損失或其他損失，本站不承擔任何責任。

久久精品国产精品亚洲色婷婷丨国产精品午夜福利视频234区丨奇米综合四色77777久久丨三级男人添奶爽爽爽视频丨日韩av无码一区二区三区无码

蘋果新論文分析DeepSeek-R1遇到復雜度閾值后準確率崩潰問題

元宇宙最新

元宇宙熱門