更少GPU卻更強——LLM輕量化壓縮及加速訓練

{{ _getLangText('m_detailInformation_goodsAuthorText') }}梁志遠
{{ _getLangText('m_detailInformation_goodsPublisherText') }}深智
2025年12月19日
ISBN:9786267757604
{{ _getLangText('m_detailInformation_goodsTips1Text') }}
{{ _getLangText('m_detailInformation_goodsActivityText') }}
{{ activityObj.name }}

{{ _getLangText("m_detailIntroduction_goodsIntroductionText") }}

【內容特點】
★Transformer與MoE架構計算特性
★模型壓縮技術:量化、剪枝、蒸餾
★混合精度訓練與分散式訓練架構
★ONNX與TensorRT格式轉換流程
★運算圖最佳化:融合、重寫、記憶體配置
★端側學習與聯邦學習通訊機制
★IR中介表示與計算圖優化策略
★動態Batch與記憶體排程機制
★cuDNN與MKLDNN運算元庫應用
★CUDA核心函數與GPU記憶體管理
★Vulkan推理加速與圖形並行整合
★OpenCL與AVX跨平台加速
★DeepSeek-V3訓練與推理結構
★FP8精度訓練與Sigmoid路由演算法

【內容簡介】
本書從工程實作與架構設計的角度出發,系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從Transformer與MoE架構切入,解析其帶來的計算與儲存壓力,並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法,如混合精度訓練、分散式架構與推理引擎建構,還提供跨框架的模型格式轉換範例,涵蓋ONNX、TensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術,並透過cuDNN、MKLDNN、CUDA與Vulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節,並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言,是一本兼顧理論深度與實務操作的實用指南。

作者介紹
梁志遠 博士
畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發,專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫,涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。