DeepSeek硬核技術解讀

{{ _getLangText('m_detailInformation_goodsAuthorText') }}劉丹,尹俊希,楊院伶
{{ _getLangText('m_detailInformation_goodsPublisherText') }}機械工業出版社
2025年11月01日
ISBN:9787111792284
{{ _getLangText('m_detailInformation_goodsTips1Text') }}
{{ _getLangText('m_detailInformation_goodsActivityText') }}
{{ activityObj.name }}

{{ _getLangText("m_detailIntroduction_goodsIntroductionText") }}

這是一本系統剖析DeepSeek系列大模型技術體系與實踐路徑的專著。本書立足于作者在大模型研發一線的深厚積累,結合深度學習、強化學習、分布式系統與模型優化等多領域知識,全面闡述 DeepSeek在模型架構、訓練推理、基礎設施及數據工程等方面的核心突破與工程實踐。全書兼具理論嚴謹性與實踐指導性,旨在幫助AI研究者、工程師和技術決策者深入理解當代大模型的關鍵技術,掌握高效、低成本構建和部署先進AI系統的方法。

本書分為兩部分。

第一部分 DeepSeek學習前置知識(第1~5章)??

從DeepSeek的模型概述和重要突破切入,系統介紹經典Transformer架構、強化學習基礎、大語言模型中的RLHF和量化技術,以及分布式訓練的基礎知識,為讀者奠定堅實的理論和技術基礎。

第二部分 DeepSeek核心技術(第6~11章)??

首先,深入解析DeepSeek的模型架構創新,包括 MoE、MLA與分詞器設計,探討跨模態對齊、負載均衡、基礎設施優化及數據處理等關鍵議題,揭示其在高性能、低資源消耗背後的系統級工程實現。

然後,聚焦DeepSeek V3、VL2及開源推理模型的訓練邏輯、推理及優化,涵蓋訓練策略、超參數設計、數據構建以及Prefill、Decode等推理階段的深度優化,為構建高效、可擴展的AI系統提供完整方法論和實戰參考。

本書不僅透徹解讀技術報告,更重視將前沿理論與工業實踐相結合,幫助讀者理解AI系統構建的本質規律與發展趨勢,為學術界和工業界提供了一條清晰、可複現的高效能人工智能研發路徑。




{{ _getLangText("m_recently_viewed_products_titleText") }}