會員登入
|
加入會員
|
會員專區
|
購物車
|
自資出版
|
電子書城
|
客服中心
文學小說
商管創投
人文藝坊
勵志養生
進修學習
科學工程
家庭親子
玩樂天地
書名
出版社
作者
isbn
編號
英語會話
|
成交的秘密
|
霹靂影音寫真特典
|
此作者無相關書籍
文學小說
文學
|
小說
商管創投
財經投資
|
行銷企管
人文藝坊
宗教、哲學
社會、人文、史地
藝術、美學
|
電影戲劇
勵志養生
醫療、保健
料理、生活百科
教育、心理、勵志
進修學習
電腦與網路
|
語言工具
雜誌、期刊
|
軍政、法律
參考、考試、教科用書
科學工程
科學、自然
|
工業、工程
家庭親子
家庭、親子、人際
青少年、童書
玩樂天地
旅遊、地圖
|
休閒娛樂
漫畫、插圖
|
限制級
更少GPU卻更強 - LLM輕量化壓縮及加速訓練
作者:
梁志遠
分類:
電腦與網路
/
AI•人工智慧
出版社:
深智數位
出版日期:2025/12/24
ISBN:9786267757604
書籍編號:kk0607498
頁數:552
定價:
980
元
一般會員價:
79
折
774
元
特別會員價:
79
折
774
元
書價若有異動,以出版社實際定價為準
訂購後立即為您進貨
訂購後立即為您進貨:目前無庫存量,讀者下訂後,開始進入調書程序,一般天數約為2-10工作日(不含例假日)。
團購數最低為 15 本以上
評價數:
(請將滑鼠移至星星處進行評價)
目前平均評價:
文字連結
複製語法
更少GPU卻更強 - LLM輕量化壓縮及加速訓練
圖片連結
複製語法
分
享
內容簡介
作者介紹
書籍目錄
同類推薦
更少GPU卻更強 - LLM輕量化壓縮及加速訓練 【內容特點】 ★Transformer與MoE架構計算特性 ★模型壓縮技術:量化、剪枝、蒸餾 ★混合精度訓練與分散式訓練架構 ★ONNX與TensorRT格式轉換流程 ★運算圖最佳化:融合、重寫、記憶體配置 ★端側學習與聯邦學習通訊機制 ★IR中介表示與計算圖優化策略 ★動態Batch與記憶體排程機制 ★cuDNN與MKLDNN運算元庫應用 ★CUDA核心函數與GPU記憶體管理 ★Vulkan推理加速與圖形並行整合 ★OpenCL與AVX跨平台加速 ★DeepSeek-V3訓練與推理結構 ★FP8精度訓練與Sigmoid路由演算法 【內容簡介】 本書從工程實作與架構設計的角度出發,系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從Transformer與MoE架構切入,解析其帶來的計算與儲存壓力,並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法,如混合精度訓練、分散式架構與推理引擎建構,還提供跨框架的模型格式轉換範例,涵蓋ONNX、TensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術,並透過cuDNN、MKLDNN、CUDA與Vulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節,並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言,是一本兼顧理論深度與實務操作的實用指南。
梁志遠 梁志遠 博士 畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發,專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫,涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。
▌第一部分 大模型概述與核心最佳化技術 ►第1章 大模型基本概念 1.1 大模型的興起與發展 1.1.1 大規模神經網路 1.1.2 Transformer 編碼器-解碼器 1.1.3 MoE 架構 1.2 運算資源與性能瓶頸 1.2.1 GPU 簡介 1.2.2 TPU 簡介 1.2.3 網路頻寬約束與分散式訓練 1.2.4 大模型的訓練時間與運算資源消耗問題 1.3 資料與隱私問題 1.3.1 急劇增加的資料量 1.3.2 資料隱私保護與符合規範性 1.4 模型部署與運行維護 1.4.1 模型部署基本概念 1.4.2 雲端運算與邊緣計算 1.4.3 端側部署 1.4.4 大模型執行與維護 1.5 本章小結 1.6 思考題 ►第2 章 模型壓縮、訓練與推理 2.1 模型壓縮概述 2.1.1 模型壓縮簡介 2.1.2 常見的模型壓縮方法分類 2.2 訓練加速基礎 2.2.1 資料並行與模型並行 2.2.2 混合精度訓練 2.2.3 分散式訓練框架:Horovod 2.3 推理加速基礎 2.3.1 硬體加速與推理引擎 2.3.2 低延遲與高輸送量平衡 2.3.3 推理最佳化實戰:批次推理 2.4 性能評估指標 2.4.1 計算複雜度與性能指標 2.4.2 延遲、輸送量與精度之間的權衡 2.4.3 評估工具與基準測試 2.5 本章小結 2.6 思考題 ►第3 章 模型格式轉換 3.1 模型格式的定義與轉換 3.1.1 常見的模型格式:ONNX、TensorFlow 的SavedModel 3.1.2 模型格式轉換實現 3.1.3 模型的相容性問題 3.2 跨框架模型轉換 3.2.1 TensorFlow 到PyTorch 的模型轉換 3.2.2 ONNX 與TensorFlow、PyTorch 的相容性 3.2.3 轉換時的精度損失問題 3.3 硬體相關的格式轉換 3.3.1 從PyTorch 到TensorRT 3.3.2 ONNX 模型與NVIDIA TensorRT 的相容性 3.3.3 模型格式與硬體加速的關係 3.4 模型格式轉換的工具與函式庫 3.4.1 使用ONNX 進行跨平臺轉換 3.4.2 TensorFlow Lite 與Edge 模型最佳化 3.5 本章小結 3.6 思考題 ►第4 章 圖最佳化 4.1 運算子融合技術 4.1.1 運算子融合的原理 4.1.2 典型運算子融合演算法的實現 4.1.3 實驗:運算子融合對推理性能的提升 4.2 布局轉換與最佳化 4.2.1 張量布局的原理 4.2.2 記憶體存取最佳化與布局選擇 4.3 運算子替換技術 4.3.1 用低消耗運算子替換高消耗運算子 4.3.2 常見的運算子替換策略 4.4 顯示記憶體最佳化 4.4.1 顯示記憶體佔用分析與最佳化 4.4.2 梯度檢查點與顯示記憶體共用 4.4.3 動態顯示記憶體分配與記憶體池管理 4.5 本章小結 4.6 思考題 ►第5 章 模型壓縮 5.1 量化 5.1.1 定點量化與浮點量化的區別 5.1.2 量化演算法與工具:TensorFlow Lite 5.1.3 量化帶來的精度損失問題 5.2 知識蒸餾 5.2.1 知識蒸餾的基本概念與應用場景 5.2.2 知識蒸餾的損失函式與訓練過程 5.2.3 如何選擇蒸餾-教師網路模型 5.3 剪枝 5.3.1 網路剪枝基本原理 5.3.2 基於權重剪枝與結構化剪枝 5.3.3 剪枝後的精度恢復方案 5.4 二值化與極端壓縮 5.4.1 二值化網路的建構與訓練 5.4.2 二值化對計算與儲存的影響 5.5 本章小結 5.6 思考題 ▌第二部分 端側學習與高效計算引擎最佳化 ►第6 章 端側學習、端側推理及計算引擎最佳化 6.1 聯邦學習概述 6.1.1 聯邦學習的基本概念與應用 6.1.2 聯邦學習中的隱私保護機制、通訊與聚合演算法 6.2 資料處理與前置處理 6.2.1 資料清洗與增廣技術 6.2.2 資料均衡與過採樣策略 6.2.3 端側資料處理的資源限制 6.3 Trainer 與最佳化器設計 6.3.1 端側訓練的挑戰與策略 6.3.2 高效最佳化器(如SGD、Adam)的選擇 6.3.3 動態調整學習率與訓練過程監控 6.4 損失函式的設計與選擇 6.4.1 常見的損失函式與應用場景 6.4.2 多工學習中的損失函式設計 6.4.3 損失函式的數值穩定性 6.5 Benchmark 設計與性能評估 6.5.1 經典Benchmark 與訂製Benchmark 6.5.2 推理與訓練性能的綜合評估 6.5.3 性能瓶頸的辨識與最佳化 6.6 IR 的作用與最佳化 6.6.1 IR 的定義及作用 6.6.2 IR 轉換與最佳化策略 6.7 Schema 的設計與規範 6.7.1 資料格式與模型介面的設計 6.7.2 資料流程與計算圖的規範化 6.8 動態Batch 與記憶體排程 6.8.1 動態Batch 的選擇與調整 6.8.2 記憶體排程與性能最佳化 6.8.3 最佳化記憶體使用率與減少記憶體溢位 6.9 異質執行與最佳化 6.9.1 GPU 與CPU 的異質計算模式原理 6.9.2 多核心與多節點並行最佳化 6.9.3 異質計算中的任務排程 6.10 裝箱操作與計算圖最佳化 6.10.1 透過裝箱減少計算消耗 6.10.2 裝箱最佳化對計算圖的影響 6.11 本章小結 6.12 思考題 ►第7 章 高性能運算子函式庫簡介 7.1 cuDNN 運算子函式庫概述 7.1.1 cuDNN 的主要功能 7.1.2 常用運算子(卷積、池化等)的實現 7.1.3 運算子加速實戰:cuDNN 在深度學習中的應用 7.2 MKLDNN 運算子函式庫概述 7.2.1 MKLDNN 與Intel 硬體的最佳化 7.2.2 MKLDNN 中的高效運算子實現 7.2.3 多核心支援與平行計算最佳化 7.3 運算子函式庫的選擇與性能比較 7.3.1 cuDNN 與MKLDNN 的應用場景對比 7.3.2 在不同硬體平臺上的表現 7.4 運算子函式庫的高效利用 7.4.1 如何選擇合適的運算子函式庫 7.4.2 最佳化運算子函式庫介面與記憶體管理 7.4.3 演算法重構:提高運算子性能 7.5 本章小結 7.6 思考題 ▌第三部分 高性能運算子與深度學習框架應用 ►第8 章 常用高性能運算子開發實戰 8.1 NEON 與ARM 架構最佳化 8.1.1 NEON 指令集與深度學習加速 8.1.2 ARM 架構上的平行計算最佳化 8.1.3 使用NEON 實現卷積等運算子加速 8.2 CUDA 與GPU 最佳化 8.2.1 CUDA 程式設計模型與記憶體管理 8.2.2 CUDA 串流與核心函式最佳化 8.2.3 高效利用GPU 平行計算資源 8.3 Vulkan 與圖形加速 8.3.1 Vulkan 的低階控制與最佳化 8.3.2 使用Vulkan 進行推理加速 8.3.3 圖形與計算並行加速的結合 8.4 AVX 與OpenCL 的最佳化 8.4.1 AVX 與CPU 最佳化的基本原理 8.4.2 OpenCL 與跨平臺加速 8.5 本章小結 8.6 思考題 ►第9 章 TIK、YVM 運算子原理及其應用 9.1 TIK 運算子函式庫的應用 9.1.1 TIK 運算子函式庫與TensorFlow Lite 的整合 9.1.2 使用TIK 進行卷積與矩陣乘法加速 9.2 YVM 運算子函式庫的應用 9.2.1 YVM 在深度學習推理中的高效應用 9.2.2 YVM 的硬體調配與最佳化 9.3 本章小結 9.4 思考題 ►第10 章 基於DeepSeek-V3 分析大模型訓練降本增效技術 10.1 DeepSeek-V3 架構概述 10.1.1 DeepSeek-V3 的架構設計與創新 10.1.2 模型參數共用與層次結構最佳化 10.2 DeepSeek-V3 的訓練降本技術分析 10.2.1 FP8 精度訓練、混合精度訓練與分散式訓練 10.2.2 動態計算圖 10.2.3 自我調整批次處理與梯度累積技術 10.2.4 Sigmoid 路由機制 10.2.5 無輔助損失負載平衡演算法 10.2.6 DualPipe 演算法 10.2.7 All-to-All 跨節點通訊 10.3 DeepSeek-V3 的推理加速技術 10.3.1 量化與蒸餾在DeepSeek-V3 中的應用 10.3.2 模型壓縮與推理速度提升 10.4 本章小結 10.5 思考題
Canva 零基礎入
ChatGPT超級應
人手一本的 Vibe
創意AI指令聖經:橫
Google AI
在思考和工具使用之後
金融天才幫你賺錢 -
塞爆 128G GP
運用生成式AI重塑S
實用的GeminiA
Q1:若我已報名付了1000元訂金,接下來我要做什麼? A:感謝您報名,後續相關事情及服務我們會以e-mail和電話跟您聯絡. 您也可以主動來信(andy@book4u.com.tw)詢問。謝謝! Q2:我本身並沒有產品和服務,也沒什麼實務上的經驗,那又能如何賺錢呢?這個課程真的有實際成效嗎? A:我們這個課程共有11項贈品,其中第2項贈品便是資訊產品創造藍圖,它將教您如何用最簡潔而快速的方法創出屬於您自己的資訊產品。一般的課程大多是教您如何捕魚,但多數的成功致富者,其成功的關鍵卻不是仰賴捕魚技術,而是仰賴借力之術,因為唯有借力才能無中生有!才能快速成長!也才能快速致富!本課程3天共有三套樣版,其中一套樣版便是教您打造在沒有任何商品與服務,也沒有任何資源的情況下,就能快速借力致富的樣版!本課程二位講師都是白手起家,對於沒有實務經驗的新手會格外用心,請放心。 Q3:請問贈品中魚池矩陣直效聯盟VVIP是什麼? A:這是一個強大的系統,而我們送的是體驗版,會提供你Email追客系統。國外有一種函授課程,亦即每幾天發一個課程給學員, 就是用EMAIL追客系統來實踐。EMAIL追客系統簡單的說就是今天有一個客戶在你的網站上購買產品或註冊,系統會自動回覆一封確認信,之後你可以自行設計發送內容和發信時間一次一對多發給客戶,而且每封信還會帶入客戶本身的姓名。讓客戶以為是我們專門為客戶所量身訂作的信件。所以Email追客系統可以讓你培養跟客戶的信任感,進而成交。 Q4:請問贈品中資訊產品創造藍圖是什麼? A:這是一位叫林星?老師的課程,課程售價是9800元,現在免費送給你。此課程包含: ● 何謂資訊型產品? ● 資訊型產品的種類大解析!以及如何組織你的資訊型產品賺錢? ● 如何找到你的利基市場? ● 為什麼錯的利基市場,再好的產品與行銷也很難有效! ● 29個國外已經證實能讓你賺到錢的利基市場! ● 如何確保你做出來的產品客戶會很想購買?以及實際可執行的步驟! ● 創造資訊型產品計劃書 ● 15個步驟建立你的資訊型產品事業 ● E-mail精準行銷的10個法則 ● 10個別人沒有告訴你的有效文案撰寫法則 Q5:請問贈品中自動財富系統 6片DVD是什麼? A:此6片DVD定價3200元。內容為《借力淘金!最吸利的鈔級魚池賺錢術》作者之一王紫杰所錄製的DVD,內容為有關網路行銷的知識和技巧,非常豐富且實用,免費送給您。
為了保障您的權益,新絲路網路書店所購買的商品均享有到貨七天的鑑賞期(含例假日)。退回之商品必須於鑑賞期內寄回(以郵戳或收執聯為憑),且商品必須是全新狀態與完整包裝(商品、附件、內外包裝、隨貨文件、贈品等),否則恕不接受退貨。