會員登入
|
加入會員
|
會員專區
|
購物車
|
自資出版
|
電子書城
|
客服中心
文學小說
商管創投
人文藝坊
勵志養生
進修學習
科學工程
家庭親子
玩樂天地
書名
出版社
作者
isbn
編號
英語會話
|
成交的秘密
|
霹靂影音寫真特典
|
89S51/52 單晶片與專題製作最佳範本:使用Keil(附範例程式檔案及Keil C軟體)
此作者無相關書籍
文學小說
文學
|
小說
商管創投
財經投資
|
行銷企管
人文藝坊
宗教、哲學
社會、人文、史地
藝術、美學
|
電影戲劇
勵志養生
醫療、保健
料理、生活百科
教育、心理、勵志
進修學習
電腦與網路
|
語言工具
雜誌、期刊
|
軍政、法律
參考、考試、教科用書
科學工程
科學、自然
|
工業、工程
家庭親子
家庭、親子、人際
青少年、童書
玩樂天地
旅遊、地圖
|
休閒娛樂
漫畫、插圖
|
限制級
強化學習導論
作者:
邱偉育
分類:
工業•工程
/
電子•電機
叢書系列:實用電子
出版社:
全華圖書
出版日期:2021/11/22
ISBN:9789865038717
書籍編號:kk0546606
頁數:232
定價:
400
元
一般會員價:
88
折
352
元
特別會員價:
85
折
340
元
書價若有異動,以出版社實際定價為準
訂購後立即為您進貨
訂購後立即為您進貨:目前無庫存量,讀者下訂後,開始進入調書程序,一般天數約為2-10工作日(不含例假日)。
團購數最低為 15 本以上
評價數:
(請將滑鼠移至星星處進行評價)
目前平均評價:
文字連結
複製語法
強化學習導論
圖片連結
複製語法
分
享
內容簡介
書籍目錄
同類推薦
強化學習導論 內容簡介 近年來因人工智慧興起,帶起許多學生、工程師與學者開始投入相關技術的學習、研究和開發。早期談到人工智慧,大部分會聯想到機器學習中的監督式學習和非監督式學習。然而監督或非監督式學習較難處理動態系統,機器學習技術的另一個分支─強化學習,剛好補足此缺口。強化學習的應用相當廣,最有名的兩個例子為AlphaGo透過資料學習在圍棋比賽上屢獲佳績,以及Google利用強化學習技術,優化資料中心的運作,進而減少40%的冷卻花費。本書以奠定基本功為目的,一步步帶領讀者建構完整的強化學習知識,介紹的相關概念包含:動態規劃、蒙地卡羅法、1步時間差分法、n步時間差分法、近似解法、規劃與學習、資格跡與學習、策略梯度法。 本書特色 1.本書從假設與理論開始討論,再進入演算法與範例,讓讀者了解整體架構的來龍去脈。 2.每章的開始先綜述該章的主要內容,讓讀者有大方向的了解,再進入細節的討論。 3.相關概念以圖示方式呈現,讀者較易理解與統整。 4.每章搭配範例與程式碼,徹底了解演算法特性。 5.每章結尾作重點回顧,條列該章裡重要概念,方便讀者確認學習重點。 6.本書適用於自學、大學或科大課程教科書與實作專題的輔助教材,以及業界工程師快速奠定強化學習基礎概念與實作能力的教學書籍。
目錄 第1章 強化學習框架 1-1 強化學習主要元素與馬可夫決策過程 1-2 範例1.1 1-3 策略和價值函數 1-4 範例1.2 1-5 最佳策略和最佳價值函數 重點回顧 章末練習 第2章 動態規劃 2-1 策略評估 2-2 策略改進 2-3 範例2.1與程式碼 2-4 策略疊代和價值疊代 2-5 動態規劃的優缺點與異步更新 2-6 範例2.2與程式碼 2-7 廣義策略疊代 重點回顧 章末練習 第3章 蒙地卡羅法 3-1 蒙地卡羅預測 3-2 同策略與異策略法 3-3 同策略蒙地卡羅控制 3-4 範例3.1與程式碼 3-5 異策略與重要性抽樣 3-6 異策略蒙地卡羅預測 3-7 異策略蒙地卡羅控制 重點回顧 章末練習 第4章 1步時間差分法 4-1 時間差分法 4-2 Sarsa和Q學習 4-3 範例4.1與程式碼 4-4 期望Sarsa 重點回顧 章末練習 第5章 5-1 n步時間差分預測 5-2 n步Sarsa與n步期望Sarsa 5-3 範例5.1與程式碼 5-4 異策略n步時間差分控制 重點回顧 章末練習 第6章 近似解法 6-1 函數近似與隨機梯度下降 6-2 同策略梯度與半梯度預測 6-3 同策略回合式半梯度控制 6-4 範例6.1與程式碼 6-5 異策略深度Q網路 6-6 同策略差分半梯度控制 重點回顧 章末練習 第7章 規劃與學習 7-1 規劃 7-2 範例7.1與程式碼 7-3 優先掃掠 7-4 內在動機 7-5 範例7.2與程式碼 重點回顧 章末練習 第8章 資格跡與學習 8-1 資格跡和λ報酬 8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ) 8-3 資格跡和表格解法 8-4 範例8.1與程式碼 重點回顧 章末練習 第9章 策略梯度法 9-1 策略梯度與策略參數更新 9-2 簡樸策略梯度演算法 9-3 增強演算法 9-4 行動者評論家演算法 9-5 範例9.1與程式碼 重點回顧 章末練習 參考文獻 名詞索引
圖解電磁學:從概念到
超圖解電動車的構造與
看圖學Python:
數位影像處理
資料結構:使用Pyt
Excel VBA快
OLED有機發光二極
MATLAB程式設計
放電魚小學堂:電從哪
圖解半導體:從設計、
Q1:若我已報名付了1000元訂金,接下來我要做什麼? A:感謝您報名,後續相關事情及服務我們會以e-mail和電話跟您聯絡. 您也可以主動來信(andy@book4u.com.tw)詢問。謝謝! Q2:我本身並沒有產品和服務,也沒什麼實務上的經驗,那又能如何賺錢呢?這個課程真的有實際成效嗎? A:我們這個課程共有11項贈品,其中第2項贈品便是資訊產品創造藍圖,它將教您如何用最簡潔而快速的方法創出屬於您自己的資訊產品。一般的課程大多是教您如何捕魚,但多數的成功致富者,其成功的關鍵卻不是仰賴捕魚技術,而是仰賴借力之術,因為唯有借力才能無中生有!才能快速成長!也才能快速致富!本課程3天共有三套樣版,其中一套樣版便是教您打造在沒有任何商品與服務,也沒有任何資源的情況下,就能快速借力致富的樣版!本課程二位講師都是白手起家,對於沒有實務經驗的新手會格外用心,請放心。 Q3:請問贈品中魚池矩陣直效聯盟VVIP是什麼? A:這是一個強大的系統,而我們送的是體驗版,會提供你Email追客系統。國外有一種函授課程,亦即每幾天發一個課程給學員, 就是用EMAIL追客系統來實踐。EMAIL追客系統簡單的說就是今天有一個客戶在你的網站上購買產品或註冊,系統會自動回覆一封確認信,之後你可以自行設計發送內容和發信時間一次一對多發給客戶,而且每封信還會帶入客戶本身的姓名。讓客戶以為是我們專門為客戶所量身訂作的信件。所以Email追客系統可以讓你培養跟客戶的信任感,進而成交。 Q4:請問贈品中資訊產品創造藍圖是什麼? A:這是一位叫林星?老師的課程,課程售價是9800元,現在免費送給你。此課程包含: ● 何謂資訊型產品? ● 資訊型產品的種類大解析!以及如何組織你的資訊型產品賺錢? ● 如何找到你的利基市場? ● 為什麼錯的利基市場,再好的產品與行銷也很難有效! ● 29個國外已經證實能讓你賺到錢的利基市場! ● 如何確保你做出來的產品客戶會很想購買?以及實際可執行的步驟! ● 創造資訊型產品計劃書 ● 15個步驟建立你的資訊型產品事業 ● E-mail精準行銷的10個法則 ● 10個別人沒有告訴你的有效文案撰寫法則 Q5:請問贈品中自動財富系統 6片DVD是什麼? A:此6片DVD定價3200元。內容為《借力淘金!最吸利的鈔級魚池賺錢術》作者之一王紫杰所錄製的DVD,內容為有關網路行銷的知識和技巧,非常豐富且實用,免費送給您。
為了保障您的權益,新絲路網路書店所購買的商品均享有到貨七天的鑑賞期(含例假日)。退回之商品必須於鑑賞期內寄回(以郵戳或收執聯為憑),且商品必須是全新狀態與完整包裝(商品、附件、內外包裝、隨貨文件、贈品等),否則恕不接受退貨。