本書共分為12章,涵蓋大模型的建構、訓練與微調流程。
第一章介紹Transformer的基本原理,包括自注意力、多頭注意力與位置編碼。第二章說明GPT模型的文字生成機制與實作方法,並比較Greedy與Beam Search等生成策略。第三章講解BERT模型的編碼結構與遮罩語言模型任務,並說明如何應用於分類任務。第四章介紹ViT模型在影像分塊、嵌入與注意力運算上的應用。第五章說明Adapter Tuning、LoRA、P-Tuning等常見微調方法。第六章說明資料清洗、資料增強與嵌入向量生成等處理技術。第七章解釋混合精度訓練、多GPU併行與梯度累積等效率優化技術。第八章涵蓋對比學習與對抗訓練,包括SimCLR與GAN的實作細節。第九章介紹AdamW與LAMB最佳化器,並比較各種動態學習率排程方式。第十章說明知識蒸餾與剪枝,包括教師學生架構與多頭注意力精簡方法。第十一章示範大模型訓練流程,從資料前處理到訓練中斷與恢復。第十二章介紹模型微調的實作,包括資料集切分、參數設定與推理效能調整。