注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)工業(yè)技術(shù)電工技術(shù)Linux經(jīng)典實(shí)例(第二版)

Linux經(jīng)典實(shí)例(第二版)

Linux經(jīng)典實(shí)例(第二版)

定 價(jià):¥168.00

作 者: [美]卡拉·施羅德(Carla Schroder)
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787519869724 出版時(shí)間: 2023-03-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)針對(duì)各種具體問(wèn)題,提出解決方案,并詳細(xì)解釋了涉及到的技術(shù)原理,最z后還給出了參考資料以供深入學(xué)習(xí)。本書(shū)的主要內(nèi)容有:學(xué)習(xí)使用全新的通用服務(wù)管理器systemd。利用firewalld構(gòu)建簡(jiǎn)單或復(fù)雜的防火墻。保證Linux系統(tǒng)與移動(dòng)設(shè)備間網(wǎng)絡(luò)連接的安全。搶救無(wú)法引導(dǎo)的系統(tǒng)。重置Linux與Windows的用戶(hù)密碼。利用dnsmasq管理局域網(wǎng)名稱(chēng)服務(wù)。管理用戶(hù)與組,控制文件的訪問(wèn)。探測(cè)計(jì)算機(jī)硬件,監(jiān)控硬件健康。管理GRUB引導(dǎo)加載程序,設(shè)置Linux與Windows雙啟動(dòng)。通過(guò)最z新的工具同步網(wǎng)絡(luò)上所有系統(tǒng)的時(shí)間。在樹(shù)莓派上構(gòu)建互聯(lián)網(wǎng)路由器與防火墻。管理文件系統(tǒng)與分區(qū)。

作者簡(jiǎn)介

  Carla Schroder是一名科技記者與作家,擁有系統(tǒng)與網(wǎng)絡(luò)管理員的經(jīng)驗(yàn),曾負(fù)責(zé)管理Linux-微軟-蘋(píng)果混合網(wǎng)絡(luò)。她撰寫(xiě)過(guò)1000多篇Linux操作指南,目前就職于一家Linux企業(yè)軟件公司,負(fù)責(zé)編寫(xiě)和維護(hù)產(chǎn)品手冊(cè)。出版的書(shū)籍有《Linux Networking Cookbook》《The Book of Audacity》等。

圖書(shū)目錄

目錄
前言 .1
第1 章 強(qiáng)化學(xué)習(xí)概述 .13
1.1 為什么現(xiàn)在就需要強(qiáng)化學(xué)習(xí)? . 14
1.2 機(jī)器學(xué)習(xí) 15
1.3 強(qiáng)化學(xué)習(xí) 17
1.3.1 什么時(shí)候使用強(qiáng)化學(xué)習(xí) 19
1.3.2 強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景 20
1.4 強(qiáng)化學(xué)習(xí)的種類(lèi) 22
1.4.1 免模型學(xué)習(xí)或有模型學(xué)習(xí) . 22
1.4.2 智能體如何使用并更新它們的策略 23
1.4.3 離散或連續(xù)的行為 . 25
1.4.4 優(yōu)化方法. 25
1.4.5 策略評(píng)估和改進(jìn) . 26
1.5 強(qiáng)化學(xué)習(xí)的基本概念 . 27
1.5.1 歷史上第一個(gè)強(qiáng)化學(xué)習(xí)算法 . 28
1.5.2 強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)是一種東西嗎? . 31
1.5.3 獎(jiǎng)勵(lì)和反饋 32
1.6 強(qiáng)化學(xué)習(xí)的發(fā)展簡(jiǎn)史 . 35
1.7 本章總結(jié) 37
1.8 擴(kuò)展閱讀 38
1.9 參考文獻(xiàn) 38
第2 章 馬爾可夫決策過(guò)程,動(dòng)態(tài)規(guī)劃,蒙特卡洛方法 44
2.1 多臂老虎機(jī)測(cè)試 44
2.1.1 獎(jiǎng)勵(lì)工程. 45
2.1.2 策略評(píng)估:價(jià)值函數(shù) 45
2.1.3 策略改進(jìn):選擇最佳動(dòng)作 48
2.1.4 模擬環(huán)境. 50
2.1.5 運(yùn)行實(shí)驗(yàn). 50
2.1.6 ε - 貪婪算法的改進(jìn). 52
2.2 馬爾可夫決策過(guò)程 . 54
2.2.1 庫(kù)存控制. 56
2.2.2 庫(kù)存控制仿真 . 60
2.3 策略與價(jià)值函數(shù) 62
2.3.1 打折的獎(jiǎng)勵(lì) 62
2.3.2 用狀態(tài)?C 價(jià)值函數(shù)預(yù)測(cè)獎(jiǎng)勵(lì) 64
2.3.3 用動(dòng)作值函數(shù)預(yù)測(cè)獎(jiǎng)勵(lì) . 67
2.3.4 最優(yōu)策略. 69
2.4 蒙特卡洛策略生成 70
2.5 動(dòng)態(tài)規(guī)劃的值迭代 72
2.5.1 值迭代的過(guò)程 74
2.5.2 數(shù)值迭代結(jié)果 76
2.6 總結(jié) 78
2.7 擴(kuò)展閱讀 79
2.8 參考文獻(xiàn) 79
第3 章 時(shí)序差分學(xué)習(xí),Q 學(xué)習(xí)和n 步算法 80
3.1 時(shí)序差分學(xué)習(xí)的相關(guān)公式 81
3.1.1 Q 學(xué)習(xí) . 83
3.1.2 SARSA 85
3.1.3 Q 學(xué)習(xí)與SARSA 方法的對(duì)比 . 87
3.1.4 案例解析:自動(dòng)擴(kuò)展應(yīng)用程序容器以降低成本 . 90
3.2 行業(yè)實(shí)例:廣告中的實(shí)時(shí)競(jìng)價(jià) . 92
3.2.1 MDP 的定義 . 92
3.2.2 實(shí)時(shí)競(jìng)價(jià)案例的環(huán)境 93
3.2.3 進(jìn)一步改進(jìn) 94
3.3 Q 學(xué)習(xí)的相關(guān)擴(kuò)展 96
3.3.1 雙重Q 學(xué)習(xí) 96
3.3.2 延遲Q 學(xué)習(xí) 97
3.3.3 各類(lèi)版本的Q 學(xué)習(xí)之間的對(duì)比 98
3.3.4 對(duì)抗學(xué)習(xí). 98
3.4 n 步算法 99
3.5 有效跟蹤 104
3.6 有效跟蹤算法的擴(kuò)展 107
3.6.1 沃特金斯的Q(λ) 107
3.6.2 沃特金斯Q(λ) 的模糊擦除 . 108
3.6.3 快速Q(mào) 學(xué)習(xí) 108
3.6.4 積累式有效跟蹤與取代式有效跟蹤 108
3.7 總結(jié) . 109
3.8 擴(kuò)展閱讀 110
3.9 參考文獻(xiàn) 110
第4 章 深度Q 網(wǎng)絡(luò) . 112
4.1 深度學(xué)習(xí)的體系結(jié)構(gòu) 113
4.1.1 基礎(chǔ)知識(shí) 113
4.1.2 深度學(xué)習(xí)架構(gòu) 114
4.1.3 深度學(xué)習(xí)庫(kù) . 115
4.1.4 深度強(qiáng)化學(xué)習(xí) 117
4.2 深度Q 學(xué)習(xí) . 117
4.2.1 經(jīng)驗(yàn)重放 118
4.2.2 克隆Q 網(wǎng)絡(luò) 118
4.2.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 119
4.2.4 DQN 的實(shí)現(xiàn) 119
4.2.5 實(shí)際案例:倒立擺環(huán)境中的DQN 120
4.2.6 案例研究:減少建筑物的能源使用 125
4.3 彩虹DQN 126
4.3.1 分配強(qiáng)化學(xué)習(xí) 126
4.3.2 優(yōu)先經(jīng)驗(yàn)重放 129
4.3.3 噪聲網(wǎng)絡(luò) 129
4.3.4 決斗網(wǎng)絡(luò) 129
4.4 實(shí)際案例:雅達(dá)利的彩虹DQN 130
4.4.1 結(jié)果 131
4.4.2 討論 132
4.5 其他DQN 改進(jìn) 134
4.5.1 改進(jìn)探索過(guò)程 135
4.5.2 改進(jìn)獎(jiǎng)勵(lì)過(guò)程 136
4.5.3 從離線數(shù)據(jù)中進(jìn)行學(xué)習(xí) 137
4.6 總結(jié) . 139
4.7 擴(kuò)展閱讀 140
4.8 參考文獻(xiàn) 140
第5 章 梯度策略 144
5.1 直接學(xué)習(xí)策略的優(yōu)勢(shì) 144
5.2 如何計(jì)算策略的梯度 145
5.3 策略梯度理論 . 146
5.4 策略函數(shù) 149
5.4 1 線性策略 149
5.4.2 其他策略 151
5.5 基本實(shí)現(xiàn) 152
5.5.1 蒙特卡洛算法(強(qiáng)化算法) 152
5.5.2 帶基線的強(qiáng)化算法 153
5.5.3 梯度方差的減小 157
5.5.4 n 步演員評(píng)論家和優(yōu)勢(shì)演員評(píng)論家(A2C) . 159
5.5.5 基于資格跡的演員評(píng)論家算法 . 164
5.5.6 基本策略梯度算法的比較 165
5.6 行業(yè)研究:為客戶(hù)自動(dòng)提供產(chǎn)品 . 166
5.6.1 行業(yè)實(shí)例:Gym 環(huán)境中的購(gòu)物車(chē)實(shí)驗(yàn) . 167
5.6.2 預(yù)設(shè)期望 168
5.6.3 購(gòu)物車(chē)實(shí)驗(yàn)環(huán)境的結(jié)果展示 169
5.7 總結(jié) . 173
5.8 擴(kuò)展閱讀 174
5.9 參考文獻(xiàn) 174
第6 章 超越策略梯度 176
6.1 離線算法 177
6.1.1 重要性抽樣 177
6.1.2 行為和目標(biāo)策略 179
6.1.3 離線 Q 學(xué)習(xí) 180
6.1.4 梯度時(shí)差學(xué)習(xí) 180
6.1.5 Greedy-GQ 算法 181
6.1.6 離線演員評(píng)論家算法 . 182
6.2 決定性策略梯度 183
6.2.1 決定性策略梯度 183
6.2.2 深度確定性策略梯度 . 185
6.2.3 雙延遲DDPG 189
6.2.4 案例研究:利用到用戶(hù)評(píng)論的推薦算法 193
6.2.5 改進(jìn)DPG. 194
6.3 信賴(lài)域方法 195
6.3.1 Kullback-Leibler 散度 197
6.3.2 自然策略梯度與信任區(qū)域策略?xún)?yōu)化 198
6.3.3 近端策略?xún)?yōu)化 201
6.4 實(shí)際案例:在現(xiàn)實(shí)生活中使用伺服器 206
6.4.1 實(shí)驗(yàn)設(shè)置 . 206
6.4.2 強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn) 207
6.4.3 增加算法的復(fù)雜度 210
6.4.4 模擬中的超參數(shù)調(diào)優(yōu) . 211
6.4.5 產(chǎn)生的策略 212
6.5 其他策略梯度算法 214
6.5.1 回溯(λ) 214
6.5.2 有經(jīng)驗(yàn)重放的演員評(píng)論家(ACER) 214
6.5.3 使用Kronecker 因子信任區(qū)域的演員評(píng)論家算法(ACKTR) 215
6.5.4 更多相關(guān)方法 216
6.6 策略梯度算法的擴(kuò)展 216
6.7 總結(jié) . 217
6.7.1 應(yīng)該使用哪種算法? . 217
6.7.2 關(guān)于異步方法的注意事項(xiàng) 218
6.8 擴(kuò)展閱讀 218
6.9 參考文獻(xiàn) 219
第7 章 用熵方法學(xué)習(xí)所有可能的策略 225
7.1 什么是熵? 225
7.2 最大熵強(qiáng)化學(xué)習(xí) 226
7.3 弱演員評(píng)論家算法 227
7.3.1 SAC 的實(shí)現(xiàn)細(xì)節(jié)與離散動(dòng)作空間 228
7.3.2 自動(dòng)調(diào)整溫度 229
7.3.3 案例研究:有助于減少交通擁堵的自動(dòng)化交通管理系統(tǒng) 229
7.4 最大熵方法的推廣 231
7.4.1 熵的其他度量(以及策略集) . 231
7.4.2 基于雙重Q 學(xué)習(xí)上限的優(yōu)化探索 231
7.4.3 通過(guò)歷史經(jīng)驗(yàn)重放改進(jìn)結(jié)果 232
7.4.4 軟策略梯度 . 232
7.4.5 軟Q 學(xué)習(xí)(及其擴(kuò)展) 232
7.4.6 路徑一致性學(xué)習(xí) 233
7.5 性能比較:SAC 與PPO 233
7.6 熵是如何激勵(lì)智能體進(jìn)行探索的? . 235
7.7 行業(yè)實(shí)例:通過(guò)遙控車(chē)學(xué)習(xí)自動(dòng)駕駛 240
7.7.1 問(wèn)題描述 241
7.7.2 減少訓(xùn)練時(shí)間 241
7.7.3 夸張的動(dòng)作 . 244
7.7.4 超參數(shù)探索 . 246
7.7.5 最終策略 246
7.7.6 進(jìn)一步改進(jìn) . 247
7.8 本章總結(jié) 248
7.8.1 策略梯度與軟Q 學(xué)習(xí)的等價(jià)性 249
7.8.2 這對(duì)今后的發(fā)展意味著什么? . 249
7.8.3 這對(duì)目前來(lái)說(shuō)意味著什么? 249
7.9 參考文獻(xiàn) 250
第8 章 改進(jìn)智能體的學(xué)習(xí)方式 253
8.1 關(guān)于MDP 的思考 . 254
8.1.1 部分可觀察馬爾可夫決策過(guò)程 . 254
8.1.2 案例研究:POMDP 在自動(dòng)駕駛汽車(chē)中的應(yīng)用 256
8.1.3 上下文馬爾可夫決策過(guò)程 . 257
8.1.4 動(dòng)作不斷變化的MDPs 257
8.1.5 正則化MDP 258
8.2 層次強(qiáng)化學(xué)習(xí) . 259
8.2.1 初級(jí)層次強(qiáng)化學(xué)習(xí) . 259
8.2.2 具有內(nèi)在獎(jiǎng)勵(lì)的層次強(qiáng)化學(xué)習(xí)(HIRO) 260
8.2.3 學(xué)習(xí)技巧和無(wú)監(jiān)督學(xué)習(xí) 262
8.2.4 在HRL 中使用技能 263
8.2.5 HRL 研究結(jié)論 264
8.3 多智能體強(qiáng)化學(xué)習(xí) 265
8.3.1 MARL 的框架 265
8.3.2 集中式或分布式 267
8.3.3 單智能體算法 268
8.3.4 案例研究:?jiǎn)沃悄荏w分散學(xué)習(xí)在無(wú)人機(jī)中的應(yīng)用 . 269
8.3.5 集中學(xué)習(xí),分散執(zhí)行 . 270
8.3.6 分散的學(xué)習(xí) . 272
8.3.7 其他的組合 . 273
8.3.8 MARL 的挑戰(zhàn) 274
8.3.9 MARL 的結(jié)論 275
8.4 專(zhuān)家的指導(dǎo) 276
8.4.1 克隆行為 276
8.4.2 模擬強(qiáng)化學(xué)習(xí) 276
8.4.3 反向強(qiáng)化學(xué)習(xí) 277
8.4.4 課程學(xué)習(xí) 279
8.5 其他案例 281
8.5.1 元學(xué)習(xí) 281
8.5.2 遷移學(xué)習(xí) 281
8.6 總結(jié) . 282
8.7 擴(kuò)展閱讀 283
8.8 參考文獻(xiàn) 285
第9 章 強(qiáng)化學(xué)習(xí)實(shí)踐 293
9.1 強(qiáng)化學(xué)習(xí)的生命周期 293
9.2 問(wèn)題定義:一個(gè)真正的強(qiáng)化學(xué)習(xí)項(xiàng)目到底包括什么? . 299
9.2.1 強(qiáng)化學(xué)習(xí)問(wèn)題是連續(xù)性問(wèn)題 299
9.2.2 強(qiáng)化學(xué)習(xí)問(wèn)題是戰(zhàn)略性問(wèn)題 300
9.2.3 強(qiáng)化學(xué)習(xí)中的基礎(chǔ)指標(biāo) 302
9.2.4 學(xué)習(xí)類(lèi)型 304
9.3 強(qiáng)化學(xué)習(xí)工程和改進(jìn) 309
9.3.1 項(xiàng)目過(guò)程 309
9.3.2 環(huán)境工程 310
9.3.3 狀態(tài)工程或狀態(tài)表示學(xué)習(xí) 313
9.3.4 策略工程 316
9.3.5 將策略映射到操作空間 322
9.3.6 探索 326
9.3.7 獎(jiǎng)勵(lì)工程 333
9.4 總結(jié) . 337
9.5 擴(kuò)展閱讀 338
9.6 參考文獻(xiàn) 339
第10 章 強(qiáng)化學(xué)習(xí)的生產(chǎn)部署 348
10.1 實(shí)現(xiàn)階段 . 349
10.1.1 框架 . 349
10.1.2 大規(guī)模強(qiáng)化學(xué)習(xí) 353
10.1.3 評(píng)價(jià) . 361
10.2 部署 370
10.2.1 目標(biāo) . 371
10.2.2 體系架構(gòu) 374
10.2.3 輔助工具 376
10.2.4 安全、保障和道德 382
10.3 總結(jié) 389
10.4 擴(kuò)展閱讀 . 390
10.5 參考文獻(xiàn) . 392
第11 章 結(jié)論與展望 . 400
11.1 提示和技巧 400
11.1.1 框架問(wèn)題 400
11.1.2 你的數(shù)據(jù) 402
11.1.3 訓(xùn)練 . 403
11.1.4 評(píng)價(jià) . 404
11.1.5 部署 . 404
11.2 調(diào)試 405
11.2.1 ${ALGORITHM_NAME} 不能解決${ENVIRONMENT}! 406
11.2.2 監(jiān)測(cè)調(diào)試 407
11.3 強(qiáng)化學(xué)習(xí)的未來(lái) 408
11.3.1 強(qiáng)化學(xué)習(xí)市場(chǎng)機(jī)會(huì) 409
11.3.2 強(qiáng)化學(xué)習(xí)的研究方向 410
11.4 結(jié)束語(yǔ) 416
11.4.1 未來(lái)下一步 417
11.4.2 現(xiàn)在輪到你了! . 418
11.5 擴(kuò)展閱讀 . 418
11.6 參考文獻(xiàn) . 419
附錄A 兩種動(dòng)作的Logistic 策略梯度 423
附錄B Softmax 的策略梯度 . 427

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)