注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)自己動(dòng)手寫分布式搜索引擎

自己動(dòng)手寫分布式搜索引擎

自己動(dòng)手寫分布式搜索引擎

定 價(jià):¥59.00

作 者: 羅剛,崔智杰
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302477082 出版時(shí)間: 2017-09-01 包裝:
開本: 16開 頁數(shù): 428 字?jǐn)?shù):  

內(nèi)容簡介

  本書介紹了分布式搜索引擎開發(fā)的原理與Java實(shí)現(xiàn),主要包括全文檢索的原理與實(shí)現(xiàn)、分布式算法與代碼實(shí)現(xiàn)、SolrCloud和ElasticSearch的使用與原理等內(nèi)容,并著重介紹了一種實(shí)現(xiàn)分布式中文搜索引擎的方法。 本書適合有Java程序設(shè)計(jì)基礎(chǔ)的開發(fā)人員或者對分布式搜索引擎技術(shù)感興趣的從業(yè)人員使用

作者簡介

  羅剛,計(jì)算機(jī)軟件碩士,畢業(yè)于吉林工業(yè)大學(xué)。2005年創(chuàng)立北京盈智星科技發(fā)展有限公司,2008年聯(lián)合創(chuàng)立上海數(shù)聚軟件公司。獵兔搜索創(chuàng)始人,當(dāng)前獵兔搜索在北京、上海以及石家莊均設(shè)有研發(fā)部。他帶領(lǐng)獵兔搜索技術(shù)開發(fā)團(tuán)隊(duì)先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔文本挖掘系統(tǒng),智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測系統(tǒng)等,實(shí)現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實(shí)時(shí)監(jiān)測,其開發(fā)的搜索軟件日用戶訪問量萬次以上。

圖書目錄

第1章  搜索引擎    1
1.1  搜索引擎基本模塊    2
1.2  開發(fā)環(huán)境    3
1.3  搜索引擎工作原理    4
1.3.1  網(wǎng)絡(luò)爬蟲    5
1.3.2  全文索引    5
1.3.3  搜索用戶界面    8
1.3.4  分布式計(jì)算    9
1.3.5  文本挖掘    9
1.4  算法基礎(chǔ)    9
1.4.1  折半查找    10
1.4.2  排序    10
1.4.3  最小生成樹    12
1.5  軟件工具    15
1.6  單元測試    15
1.7  本章小結(jié)    17
1.8  術(shù)語表    18
第2章  自己動(dòng)手寫全文檢索    19
2.1  構(gòu)建索引    22
2.2  生成索引文件    23
2.3  讀入索引文件    25
2.4  查詢    26
2.5  有限狀態(tài)機(jī)    29
2.5.1  運(yùn)算    29
2.5.2  編輯距離有限狀態(tài)機(jī)    30
2.6  本章小結(jié)    32
第3章  Lucene的原理與應(yīng)用    33
3.1  Lucene快速入門    34
3.1.1  創(chuàng)建索引    34
3.1.2  查詢索引庫    35
3.1.3  創(chuàng)建文檔索引    36
3.1.4  查詢文檔索引    36
3.2  創(chuàng)建和維護(hù)索引庫    37
3.2.1  設(shè)計(jì)索引庫結(jié)構(gòu)    37
3.2.2  創(chuàng)建索引庫    38
3.2.3  向索引庫中添加索引文檔    40
3.2.4  刪除索引庫中的索引文檔    43
3.2.5  更新索引庫中的索引文檔    44
3.2.6  關(guān)閉索引庫    45
3.2.7  索引的優(yōu)化與合并    45
3.2.8  靈活索引    46
3.2.9  索引文件格式    47
3.2.10  定制索引存儲(chǔ)結(jié)構(gòu)    49
3.2.11  寫索引集成到爬蟲    54
3.2.12  多線程寫索引    56
3.2.13  分發(fā)索引    58
3.2.14  修復(fù)索引    61
3.3  查找索引庫    61
3.3.1  查詢過程    61
3.3.2  常用查詢    64
3.3.3  基本詞查詢    65
3.3.4  模糊匹配    65
3.3.5  布爾查詢    67
3.3.6  短語查詢    69
3.3.7  跨度查詢    71
3.3.8  FieldScoreQuery    74
3.3.9  排序    77
3.3.10  使用Filter篩選搜索結(jié)果    81
3.3.11  使用Collector篩選搜索
 結(jié)果    82
3.3.12  遍歷索引庫    85
3.3.13  關(guān)鍵詞高亮顯示    88
3.3.14  列合并    91
3.3.15  關(guān)聯(lián)內(nèi)容(BlockJoinQuery)    92
3.3.16  查詢大容量索引    94
3.4  讀寫并發(fā)    95
3.5  Lucene深入介紹    95
3.5.1  整體結(jié)構(gòu)    96
3.5.2  索引原理    97
3.5.3  文檔值    100
3.5.4  FST    102
3.6  查詢語法與解析    102
3.6.1  JavaCC    104
3.6.2  生成一個(gè)查詢解析器    114
3.6.3  簡單的查詢解析器    114
3.6.4  靈活的查詢解析器    114
3.7  檢索模型    119
3.7.1  向量空間模型    121
3.7.2  DFR    125
3.7.3  BM25概率模型    130
3.7.4  BM25F概率模型    136
3.7.5  統(tǒng)計(jì)語言模型    138
3.7.6  相關(guān)性反饋    140
3.7.7  隱含語義索引    140
3.7.8  學(xué)習(xí)評(píng)分    141
3.7.9  查詢與相關(guān)度    142
3.7.10  使用Payload調(diào)整相關(guān)性    142
3.8  查詢原理    146
3.8.1  布爾匹配    147
3.8.2  短語查詢    150
3.8.3  索引統(tǒng)計(jì)    150
3.8.4  相關(guān)性    152
3.9  分析文本    155
3.9.1  Analyzer    156
3.9.2  TokenStream    162
3.9.3  定制Tokenizer    164
3.9.4  重用Tokenizer    166
3.9.5  有限狀態(tài)轉(zhuǎn)換    167
3.9.6  索引數(shù)值列    168
3.9.7  檢索結(jié)果排序    171
3.9.8  處理價(jià)格    171
3.10  Lucene中的壓縮算法    172
3.10.1  變長壓縮    172
3.10.2  Gamma    174
3.10.3  PForDelta    176
3.10.4  VSEncoding    178
3.10.5  前綴壓縮    179
3.10.6  差分編碼    180
3.10.7  靜態(tài)索引裁剪    182
3.11  搜索中文    182
3.11.1  Lucene切分原理    185
3.11.2  Lucene中的Analyzer    186
3.11.3  自己寫Analyzer    188
3.11.4  Lietu中文分詞    191
3.11.5  字詞混合索引    191
3.12  搜索英文    196
3.12.1  英文分詞    196
3.12.2  詞性標(biāo)注    199
3.12.3  原型化    201
3.13  索引數(shù)據(jù)庫中的文本    202
3.14  優(yōu)化使用Lucene    204
3.14.1  系統(tǒng)優(yōu)化    204
3.14.2  查詢優(yōu)化    205
3.14.3  實(shí)現(xiàn)時(shí)間加權(quán)排序    207
3.14.4  詞性標(biāo)注    210
3.14.5  個(gè)性化搜索    213
3.15  實(shí)時(shí)搜索    213
3.16  語義搜索    215
3.16.1  發(fā)現(xiàn)同義詞    215
3.16.2  垂直領(lǐng)域同義詞    219
3.16.3  同義詞擴(kuò)展    219
3.16.4  語義標(biāo)注    225
3.17  本章小結(jié)    225
3.18  術(shù)語表    226
第4章  搜索引擎用戶界面    227
4.1  實(shí)現(xiàn)Lucene搜索    228
4.1.1  測試搜索功能    228
4.1.2  加載索引    229
4.2  搜索頁面設(shè)計(jì)    231
4.2.1  Struts2實(shí)現(xiàn)的搜索界面    232
4.2.2  用于顯示搜索結(jié)果的
Taglib    234
4.2.3  實(shí)現(xiàn)翻頁    235
4.3  實(shí)現(xiàn)搜索接口    238
4.3.1  編碼識(shí)別    238
4.3.2  布爾搜索    241
4.3.3  指定范圍搜索    241
4.3.4  搜索結(jié)果排序    242
4.3.5  索引緩存與更新    243
4.4  實(shí)現(xiàn)分類統(tǒng)計(jì)視圖    249
4.4.1  單值列分類統(tǒng)計(jì)    255
4.4.2  側(cè)鉆    256
4.5  實(shí)現(xiàn)相似文檔搜索    257
4.6  實(shí)現(xiàn)AJAX搜索聯(lián)想詞    259
4.6.1  估計(jì)查詢詞的文檔頻率    259
4.6.2  搜索聯(lián)想詞總體結(jié)構(gòu)    259
4.6.3  服務(wù)器端處理    260
4.6.4  瀏覽器端處理    265
4.6.5  拼音提示    267
4.6.6  部署總結(jié)    267
4.7  推薦搜索詞    268
4.7.1  挖掘相關(guān)搜索詞    268
4.7.2  使用多線程計(jì)算相關(guān)
搜索詞    270
4.8  查詢意圖理解    271
4.8.1  拼音搜索    271
4.8.2  無結(jié)果處理    272
4.9  集成其他功能    272
4.9.1  拼寫檢查    272
4.9.2  分類統(tǒng)計(jì)    276
4.9.3  相關(guān)搜索    281
4.9.4  再次查找    284
4.9.5  搜索日志    284
4.10  查詢分析    286
4.10.1  歷史搜索詞記錄    286
4.10.2  日志信息過濾    286
4.10.3  信息統(tǒng)計(jì)    287
4.10.4  挖掘日志信息    289
4.10.5  查詢詞意圖分析    290
4.11  部署網(wǎng)站    290
4.11.1  部署到Web服務(wù)器    290
4.11.2  防止攻擊    292
4.12  手機(jī)搜索界面    295
4.13  本章小結(jié)    296

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)