DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍核心代碼僅300行

2025年2月26日 22:55

來源：量子位

開源周的第三天，DeepSeek把訓練推理V3/R1背后的“動力”給亮出來了——

DeepGEMM：一個FP8GEMM（通用矩陣乘法）庫，支持密集（dense）和混合專家（MoE）矩陣乘法運算。

深入了解DeepGEMM

DeepGEMM是一個專門為實現簡潔高效的FP8通用矩陣乘法（GEMMs）而打造的庫，它還具備細粒度縮放功能，這一設計源于DeepSeekV3。

它既能處理普通的通用矩陣乘法，也能支持MoE分組的通用矩陣乘法。

這個庫是用CUDA編寫的，安裝的時候不需要編譯，因為它會在運行時通過一個輕量級的即時編譯（JIT）模塊來編譯所有的內核程序。

目前，DeepGEMM只支持英偉達的Hopper張量核心。

為了解決FP8張量核心在計算累積時不夠精確的問題，它采用了CUDA核心的兩級累積（提升）方法。

雖然DeepGEMM借鑒了CUTLASS和CuTe里的一些理念，但并沒有過度依賴它們的模板或代數運算。

相反，這個庫設計得很簡潔，只有一個核心內核函數，代碼量大概300行左右。

這使得它成為一個簡潔易懂的資源，方便大家學習Hopper架構下的FP8矩陣乘法和優化技術。

盡管其設計輕巧，但DeepGEMM的性能可以匹配或超過各種矩陣形狀的專家調優庫。

那么具體性能如何呢？

團隊在H800上使用NVCC12.8測試了DeepSeek-V3/R1推理中可能使用的所有形狀（包括預填充和解碼，但沒有張量并行）。

下面這張圖展示的是用于密集模型的普通DeepGEMM的性能：

掩碼布局（maskedlayout）的性能是這樣的：

OneMoreThing

英偉達這幾天的股票……嗯……一直再跌：

不過在北京時間27日凌晨，英偉達2025財年第四季度業績報告也即將出爐，我們可以期待一下它的表現~

免責聲明:DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍核心代碼僅300行文章轉發自互聯網，版權歸其所有。
文章內容不代表本站立場和任何投資暗示。加密貨幣市場極其波動，風險很高，可能不適合所有投資者。在投資加密貨幣之前，請確保自己充分了解市場和投資的風險，并考慮自己的財務狀況和風險承受能力。此外，請遵循您所在國家的法律法規，以及遵守交易所和錢包提供商的規定。對于任何因使用加密貨幣所造成的投資損失或其他損失，本站不承擔任何責任。

久久精品国产精品亚洲色婷婷丨国产精品午夜福利视频234区丨奇米综合四色77777久久丨三级男人添奶爽爽爽视频丨日韩av无码一区二区三区无码

DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍核心代碼僅300行

元宇宙最新

元宇宙熱門

久久精品国产精品亚洲色婷婷丨国产精品午夜福利视频234区丨奇米综合四色77777久久丨三级男人添奶爽爽爽视频丨日韩av无码一区二区三区无码

DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍 核心代碼僅300行

元宇宙最新

元宇宙熱門

DeepSeek開源第三彈：V3/R1訓練推理關鍵秘籍核心代碼僅300行