注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術建筑科學建筑設計大數據搜索引擎原理分析

大數據搜索引擎原理分析

大數據搜索引擎原理分析

定 價:¥69.00

作 者: 劉凡平
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121352454 出版時間: 2018-11-01 包裝: 平裝
開本: 16開 頁數: 356 字數:  

內容簡介

  本書是暢銷書升級版,向讀者提供了一套完整的大數據時代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術架構、算法體系及取得的成果,并以模塊化的方式進行組織。本書著重介紹了機器學習在搜索引擎中的應用,包括中文分詞、聚類、分類等核心的機器學習算法,并結合示例加以介紹和分析,使讀者可以更好地理解機器學習在搜索引擎中的價值;同時,闡述了大數據給搜索引擎帶來的新特性,結合目前大數據分析的主流工具,在搜索引擎中構建知識圖譜,以及進行日志反饋學習,可以使得搜索引擎更加智能。本書不僅適合作為互聯(lián)網行業(yè)從業(yè)者的技術參考書,也適合作為搜索引擎愛好者的參考讀物。

作者簡介

  劉凡平,碩士,畢業(yè)于中國科學技術大學軟件系統(tǒng)設計專業(yè)。曾任職微軟亞太研發(fā)集團、百度(中國)有限公司?,F(xiàn)任薇問(北京)科技有限公司首席技術官,負責搜索引擎技術與大數據人工智能平臺研發(fā)工作。擅長搜索引擎、大數據分析、分布式計算等相關研發(fā)工作,是Iveely開源搜索引擎的主要貢獻者之一。

圖書目錄

第1章?引論 1

1.1?搜索引擎的過去 1

1.2?搜索引擎的現(xiàn)在 2

1.3?搜索引擎的未來 4

1.4?大數據與搜索引擎 6

1.4.1?搜索價值提升 6

1.4.2?用戶價值提升 7

1.5?大數據與人工智能 7

1.5.1?人工智能的發(fā)展 7

1.5.2?人工智能技術 9

1.6 搜索引擎與人工智能 11

1.7?本章小結 13

第2章?搜索引擎原理與技術 14

2.1?基本工作原理 14

2.2?基本模塊結構 15

2.2.1?網絡爬蟲服務 16

2.2.2?索引服務 17

2.2.3?緩存服務 18

2.2.4?搜索服務 19

2.2.5?日志服務 21

2.3?技術概要 22

2.3.1?自然語言處理 22

2.3.2?知識圖譜 23

2.3.3?海量數據存儲 25

2.3.4?分布式計算 27

2.3.5?搜索排序 28

2.4 開源技術 29

2.4.1 Apache Lucene 29

2.4.2 Apache Nutch 31

2.4.3 Sphinx 32

2.4.4 Elastic Search 34

2.5?本章小結 36

第3章?自然語言處理框架 37

3.1?英文分詞 37

3.2?中文分詞 39

3.2.1?中文分詞概述 39

3.2.2?基于詞庫的分詞技術 40

3.2.3?基于條件隨機場模型的中文分詞 42

3.2.4?分詞粒度 49

3.3?詞性標注 50

3.3.1?隱馬爾科夫模型概要 51

3.3.2?隱馬爾科夫模型與詞性標注 52

3.4?語義相似度 60

3.5?依存句法分析 62

3.5.1?依存句法分析概要 62

3.5.2?依存句法分析實現(xiàn) 65

3.6?情感傾向分析 68

3.7?文檔關鍵詞提取 70

3.7.1?文檔關鍵詞提取概述 70

3.7.2?基于TF-IDF算法 71

3.7.3?基于TextRank算法 73

3.8?文檔句子相似度分析 76

3.8.1?句子相似度 77

3.8.2?文檔相似度 79

3.9?文檔核心句提取 80

3.10?文本的分類與聚類 83

3.10.1?文本分類 84

3.10.2?文本聚類 89

3.11?語種檢測 96

3.12?本章小結 98

第4章?構建大數據存儲引擎 99

4.1?架構體系 100

4.1.1?結構概要 100

4.1.2?服務器上線 103

4.1.3?服務器下線 103

4.1.4?數據讀取 104

4.2?數據存儲模型 105

4.3?數據壓縮 107

4.4?負載均衡 108

4.5?數據存儲邏輯視圖 111

4.6?本章小結 114

第5章?構建分布式實時計算 115

5.1?概述 115

5.2?設計架構 117

5.2.1?設計思想 117

5.2.2?基本框架 119

5.3?運行模式 121

5.4?負載均衡 122

5.5?通信設計 123

5.5.1?基本方式 124

5.5.2?分布式遠程服務調用 124

5.6?容災恢復 125

5.7?數據容錯原理 126

5.8?數據處理設計示例 128

5.9?本章小結 129

第6章?分布式可擴展爬蟲 130

6.1?爬蟲體系架構 130

6.1.1?主從分布式結構爬蟲 131

6.1.2?對等分布式結構爬蟲 131

6.1.2?基于分布式計算平臺爬蟲 132

6.2?網頁解析 133

6.2.1?狀態(tài)碼處理 134

6.2.2?鏈接去重 134

6.2.3?廣告識別 136

6.2.4?網站地圖 139

6.2.5?非網頁數據獲取 140

6.2.6?網頁去重 141

6.2.7?鏈接提取 145

6.2.8?爬蟲協(xié)議 146

6.3?網頁結構化 148

6.3.1?網頁的編碼信息 148

6.3.2?網頁的正文信息 149

6.3.3?網頁的關鍵詞信息 153

6.3.4?網頁的標題 153

6.3.5?網頁的發(fā)布時間 155

6.3.6?網頁的語言檢測 155

6.3.7?其他結構化數據 156

6.4?網頁抓取策略 157

6.5?爬蟲權限應對 158

6.6?深網抓取 161

6.7?抓取更新策略 162

6.8?本章小結 164

第7章?大數據構建知識圖譜 165

7.1?概述 165

7.1.1 開放知識圖譜 165

7.1.2 知識圖譜與認知智能 167

7.1.3 圖數據庫:Neo4j 168

7.1.4 資源描述框架:RDF 172

7.2?搜索引擎與知識圖譜 174

7.3?可靠數據源選擇 176

7.4?實體抽取 177

7.5?關系抽取 178

7.5.1?關系抽取概述 179

7.5.2?隱藏關系抽取 180

7.5.3?結構化確定關系抽取 183

7.5.4?非結構化確定關系抽取 185

7.6?知識圖譜檢測 190

7.6.1?實體關系修正 190

7.6.2?實體對齊 191

7.6.3?實體歧義分析 193

7.7?知識推理與知識計算 194

7.7.1?知識推理 194

7.7.2?知識計算 195

7.8?知識聚類 198

7.9?智能搜索實現(xiàn) 200

7.9.1?模式匹配 200

7.9.2?知識拆解 201

7.9.3?合并求解 203

7.10?智能搜索擴展 205

7.10.1?常識性智能搜索 205

7.10.2?實時信息智能搜索 206

7.10.3?可交互式智能搜索 207

7.11 知識圖譜應用 208

7.11.1 問答系統(tǒng) 208

7.11.2 情報分析 211

7.11.3 智慧醫(yī)療 214

7.11.4 推薦系統(tǒng) 215

7.12?本章小結 217

第8章?索引構建機制 218

8.1?倒排索引 218

8.1.1?倒排索引概述 219

8.1.2?索引結構 220

8.1.3?構建過程 222

8.1.4?排序規(guī)則 223

8.1.5?索引壓縮 224

8.1.6?更新策略 230

8.2?分布式存儲 230

8.2.1?存儲劃分方式 231

8.2.2?存儲平衡策略 232

8.3?存儲索引 237

8.3.1?二叉搜索樹 238

8.3.2?B樹 239

8.3.3?B+樹 241

8.3.4?B+樹與文件索引 242

8.4?字典樹索引 244

8.4.1?字典樹索引概述 245

8.4.2?字典樹索引構建 247

8.4.3?字典樹查詢優(yōu)化 249

8.5?本章小結 250

第9章?搜索服務構建 251

9.1?概述 251

9.1.1?體系結構 251

9.1.2?七何分析法 252

9.1.3?搜索語法 253

9.1.4?相關性排序 255

9.1.5?不安全信息過濾 259

9.2?大數據分布式緩存 263

9.2.1?緩存結構設計 263

9.2.2?緩存更新策略 264

9.3?文本糾錯算法 265

9.3.1?中文文本糾錯 265

9.3.2?英文文本糾錯 269

9.4?結果顯示算法 270

9.4.1?動態(tài)摘要 271

9.4.2?關鍵詞高亮算法 274

9.4.3?網頁快照 278

9.5?搜索智能提示 278

9.6?網頁排序 282

9.6.1?基于PageRank的網頁重要性評價 282

9.6.2?基于HITS算法的網頁權威性評價 285

9.6.3?HillTop算法 287

9.6.4?網頁作弊評價 288

9.6.5?網頁排序調試 291

9.7?個性化搜索 292

9.7.1?個性化搜索示例 292

9.7.2?BP神經網絡與個性化搜索 293

9.7.3?地理位置搜索 294

9.8?圖片搜索 299

9.8.1?基于內容的圖片搜索 299

9.8.2?基于文本的圖片搜索 300

9.9?搜索與廣告 302

9.9.1?廣告投放策略 303

9.9.2?基于User-Based協(xié)同過濾的廣告投放 303

9.9.3?基于Item-Based協(xié)同過濾的廣告投放 305

9.9.4?基于混合模式的廣告投放 306

9.9.5?廣告投放評價 307

9.10?搜索引擎評價 310

9.10.1?搜索引擎評價概述 310

9.10.2?基于準確率、召回率及F值評價 311

9.10.3?歸一化折扣累計增益 313

9.11?本章小結 316

第10章?基于用戶日志的反饋學習 318

10.1?基于用戶搜索詞語的分析 318

10.1.1?發(fā)現(xiàn)搜索詞的價值 319

10.1.2?發(fā)現(xiàn)不明意圖下的用戶行為 320

10.2?基于用戶點擊日志的分析 321

10.2.1?時間與搜索意圖的關系 321

10.2.2?地理位置與搜索意圖的關系 322

10.2.3?點擊日志與同義詞 324

10.2.4?點擊日志與詞語權重 325

10.2.5?點擊日志與新詞分類 326

10.2.6?點擊日志與知識圖譜 328

10.2.7?點擊日志與網頁重排序 329

10.2.8?點擊日志與網頁評價 331

10.3?基于用戶的特征分析 332

10.3.1?用戶跟蹤 333

10.3.2?用戶群體特征 334

10.3.3?用戶個體特征 336

10.4?本章小結 337

致謝 338

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號