注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)其他編程語(yǔ)言/工具自己動(dòng)手寫搜索引擎

自己動(dòng)手寫搜索引擎

自己動(dòng)手寫搜索引擎

定 價(jià):¥55.00

作 者: 羅剛 編著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì)

ISBN: 9787121096402 出版時(shí)間: 2009-12-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 353 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《自己動(dòng)手寫搜索引擎》是獵兔企業(yè)搜索開發(fā)團(tuán)隊(duì)的軟件產(chǎn)品研發(fā)和項(xiàng)目實(shí)踐的經(jīng)驗(yàn)匯總。《自己動(dòng)手寫搜索引擎》全方位展現(xiàn)出一個(gè)商用級(jí)別的Lucene搜索解決方案,主要包括爬蟲、自然語(yǔ)言處理和搜索實(shí)現(xiàn)部分。爬蟲部分介紹了網(wǎng)頁(yè)遍歷方法和從網(wǎng)頁(yè)提取主要內(nèi)容的方法。自然語(yǔ)言處理部分包括了中文分詞從理論到實(shí)現(xiàn)以及在搜索引擎中的實(shí)用等細(xì)節(jié)。其他自然語(yǔ)言處理的經(jīng)典問題與實(shí)現(xiàn)包括:文檔排重、文本分類、自動(dòng)聚類、語(yǔ)法解析樹、拼寫檢查、拼音轉(zhuǎn)換等理論與實(shí)現(xiàn)方法。在實(shí)現(xiàn)搜索方面,《自己動(dòng)手寫搜索引擎》用簡(jiǎn)單的例子介紹了完整的搜索實(shí)現(xiàn)過程,覆蓋了從索引庫(kù)的設(shè)計(jì)和索引庫(kù)與數(shù)據(jù)庫(kù)的同步到搜索用戶界面設(shè)計(jì)與實(shí)現(xiàn)。搜索用戶界面包括實(shí)現(xiàn)布爾邏輯查詢、按區(qū)間范圍查詢、搜索結(jié)果按日期排序等?!蹲约簞?dòng)手寫搜索引擎》還進(jìn)一步介紹了搜索排序的優(yōu)化方法。最后以基于Lucene的搜索服務(wù)器Solr為例,展示了Lucene的最新應(yīng)用方法。

作者簡(jiǎn)介

  羅剛,獵兔搜索(http://www.lietu.com)創(chuàng)始人,當(dāng)前獵兔搜索在北京和上海均設(shè)有研發(fā)部。帶領(lǐng)獵兔搜索技術(shù)開發(fā)團(tuán)隊(duì)先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測(cè)系統(tǒng)等,實(shí)現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實(shí)時(shí)監(jiān)測(cè)。

圖書目錄

第1章 遍歷搜索引擎技術(shù)/1
1.1 30分鐘實(shí)現(xiàn)的搜索引擎/1
1.1.1 準(zhǔn)備工作環(huán)境(10分鐘)/1
1.1.2 編寫代碼(15分鐘)/3
1.1.3 發(fā)布運(yùn)行(5分鐘)/5
1.2 Google神話/9
1.3 體驗(yàn)搜索引擎/9
1.4 搜索語(yǔ)法/10
1.5 你也可以做搜索引擎/13
1.6 搜索引擎基本技術(shù)/14
1.6.1 網(wǎng)絡(luò)蜘蛛/14
1.6.2 全文索引結(jié)構(gòu)/14
1.6.3 Lucene全文檢索引擎/15
1.6.4 Nutch網(wǎng)絡(luò)搜索軟件/16
1.6.5 用戶界面/17
1.7 商業(yè)搜索引擎技術(shù)介紹/19
1.7.1 通用搜索/19
1.7.2 垂直搜索/20
1.7.3 站內(nèi)搜索/21
1.7.4 桌面搜索/23
1.8 本章小結(jié)/24
第2章 獲得海量數(shù)據(jù)/25
2.1 自己的網(wǎng)絡(luò)蜘蛛/25
2.1.1 抓取網(wǎng)頁(yè)/25
2.1.2 網(wǎng)絡(luò)蜘蛛遍歷與實(shí)現(xiàn)/26
2.1.3 改進(jìn)網(wǎng)絡(luò)蜘蛛/30
2.1.4 MP3抓取/34
2.1.5 RSS抓取/36
2.1.6 圖片抓取/38
2.1.7 垂直行業(yè)抓取/39
2.2 抓取數(shù)據(jù)庫(kù)中的內(nèi)容/42
2.2.1 建立數(shù)據(jù)視圖/42
2.2.2 JDBC數(shù)據(jù)庫(kù)連接/43
2.2.3 增量抓取/45
2.3 抓取本地硬盤上的文件/47
2.4 本章小結(jié)/49
第3章 提取文檔中的文本內(nèi)容/50
3.1 從HTML文件中提取文本/50
3.1.1 HtmlParser介紹/53
3.1.2 結(jié)構(gòu)化信息提取/63
3.1.3 查看網(wǎng)頁(yè)的DOM結(jié)構(gòu)/68
3.1.4 正文提取的工具NekoHTML/71
3.1.5 網(wǎng)頁(yè)去噪/73
3.1.6 網(wǎng)頁(yè)結(jié)構(gòu)相似度計(jì)算/76
3.1.7 網(wǎng)站風(fēng)格樹去除文檔噪聲/80
3.1.8 正文提取/92
3.2 從非HTML文件中提取文本/98
3.2.1 TEXT文件/98
3.2.2 PDF文件/98
3.2.3 Word文件/105
3.2.4 RTF文件/106
3.2.5 Excel文件/107
3.2.6 PowerPoint文件/108
3.3 流媒體內(nèi)容提取/109
3.3.1 音頻流內(nèi)容提取/109
3.3.2 視頻流內(nèi)容提取/111
3.4 抓取限制應(yīng)對(duì)方法/113
3.5 本章小結(jié)/114
第4章 中文分詞/115
4.1 Lucene中的中文分詞/115
4.2 Lietu中文分詞的使用/116
4.3 中文分詞的原理/117
4.4 查找詞典算法/118
4.5 最大概率分詞方法/123
4.6 新詞發(fā)現(xiàn)/127
4.7 詞性標(biāo)注/129
4.8 本章小結(jié)/139
第5章 自然語(yǔ)言處理/140
5.1 語(yǔ)法解析樹/140
5.2 文檔排重/141
5.3 中文關(guān)鍵詞提取/142
5.3.1 關(guān)鍵詞提取的基本方法/142
5.3.2 從網(wǎng)頁(yè)中提取關(guān)鍵詞/145
5.4 相關(guān)搜索/145
5.5 拼寫檢查/148
5.5.1 英文拼寫檢查/148
5.5.2 中文拼寫檢查/149
5.6 自動(dòng)摘要/153
5.6.1 自動(dòng)摘要技術(shù)/153
5.6.2 自動(dòng)摘要的設(shè)計(jì)/154
5.6.3 Lucene中的動(dòng)態(tài)摘要/162
5.7 自動(dòng)分類/163
5.7.1 Classifier4J/164
5.7.2 自動(dòng)分類的接口定義/165
5.7.3 自動(dòng)分類的SVM方法實(shí)現(xiàn)/166
5.7.4 多級(jí)分類/167
5.8 自動(dòng)聚類/170
5.8.1 聚類的定義/170
5.8.2 K均值聚類方法/170
5.8.3 K均值實(shí)現(xiàn)/173
5.9 拼音轉(zhuǎn)換/179
5.10 語(yǔ)義搜索/180
5.11 跨語(yǔ)言搜索/186
5.12 本章小結(jié)/188
第6章 創(chuàng)建索引庫(kù)/189
6.1 設(shè)計(jì)索引庫(kù)結(jié)構(gòu)/190
6.1.1 理解Lucene的索引庫(kù)結(jié)構(gòu)/190
6.1.2 設(shè)計(jì)一個(gè)簡(jiǎn)單的索引庫(kù)/192
6.2 創(chuàng)建和維護(hù)索引庫(kù)/193
6.2.1 創(chuàng)建索引庫(kù)/193
6.2.2 向索引庫(kù)中添加索引文檔/194
6.2.3 刪除索引庫(kù)中的索引文檔/196
6.2.4 更新索引庫(kù)中的索引文檔/197
6.2.5 索引的合并/197
6.2.6 索引的定時(shí)更新/197
6.2.7 索引的備份和恢復(fù)/198
6.2.8 修復(fù)索引/199
6.3 讀寫并發(fā)控制/200
6.4 優(yōu)化使用Lucene/200
6.4.1 索引優(yōu)化/201
6.4.2 查詢優(yōu)化/202
6.4.3 實(shí)現(xiàn)時(shí)間加權(quán)排序/206
6.4.4 實(shí)現(xiàn)字詞混合索引/207
6.4.5 定制Similarity/214
6.4.6 定制Tokenizer/215
6.5 查詢大容量索引/217
6.6 本章小結(jié)/218
第7章 用戶界面設(shè)計(jì)與實(shí)現(xiàn)/219
7.1 Lucene搜索接口(search代碼)/219
7.2 搜索頁(yè)面設(shè)計(jì)/221
7.2.1 用于顯示搜索結(jié)果的taglib/221
7.2.2 用于搜索結(jié)果分頁(yè)的taglib/223
7.2.3 設(shè)計(jì)一個(gè)簡(jiǎn)單的搜索頁(yè)面/225
7.3 實(shí)現(xiàn)搜索接口/227
7.3.1 布爾搜索/227
7.3.2 指定范圍搜索/228
7.3.3 搜索結(jié)果排序/233
7.3.4 搜索頁(yè)面的索引緩存與更新/234
7.4 實(shí)現(xiàn)關(guān)鍵詞高亮顯示/236
7.5 實(shí)現(xiàn)分類統(tǒng)計(jì)視圖/239
7.6 實(shí)現(xiàn)相似文檔搜索/244
7.7 實(shí)現(xiàn)AJAX自動(dòng)完成/246
7.7.1 總體結(jié)構(gòu)/247
7.7.2 服務(wù)器端處理/247
7.7.3 瀏覽器端處理/249
7.7.4 服務(wù)器端改進(jìn)/250
7.7.5 部署總結(jié)/261
7.8 jQuery實(shí)現(xiàn)的自動(dòng)完成/262
7.9 集成其他功能/267
7.9.1 拼寫檢查/267
7.9.2 分類統(tǒng)計(jì)/267
7.9.3 相關(guān)搜索/271
7.9.4 再次查找/274
7.9.5 搜索日志/275
7.10 搜索日志分析/276
7.11 本章小結(jié)/280
第8章 其他高級(jí)主題/281
8.1 使用Solr實(shí)現(xiàn)分布式搜索/281
8.1.1 Solr服務(wù)器端的配置與中文支持/282
8.1.2 把數(shù)據(jù)放進(jìn)Solr/287
8.1.3 刪除數(shù)據(jù)/289
8.1.4 客戶端搜索界面/290
8.1.5 Solr索引庫(kù)的查找/292
8.1.6 索引分發(fā)/294
8.1.7 Solr搜索優(yōu)化/298
8.1.8 Solr中字詞混合索引/302
8.1.9 相關(guān)檢索/304
8.1.10 搜索結(jié)果去重/307
8.1.11 分布式搜索/311
8.1.12 SolrJ查詢分析器/315
8.1.13 擴(kuò)展SolrJ/325
8.1.14 擴(kuò)展Solr/327
8.1.15 Solr的.NET客戶端/333
8.1.16 Solr的PHP客戶端/334
8.2 圖像的OCR識(shí)別/336
8.3 競(jìng)價(jià)排名/343
8.4 Web圖分析/344
8.5 使用并行程序分析數(shù)據(jù)/350
8.6 RSS搜索/351
8.7 本章小結(jié)/353
參考資料/354

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)