注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)搜索引擎技術(shù)與發(fā)展

搜索引擎技術(shù)與發(fā)展

搜索引擎技術(shù)與發(fā)展

定 價(jià):¥69.00

作 者: 羅剛 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121398032 出版時(shí)間: 2020-10-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 268 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)主要介紹如何使用Java語(yǔ)言開(kāi)發(fā)搜索引擎,包括搜索引擎技術(shù)入門(mén),使用Java開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng),實(shí)現(xiàn)從文檔中提取索引內(nèi)容,中文分詞的原理與實(shí)現(xiàn),在Linux服務(wù)器端開(kāi)發(fā)Solr應(yīng)用,Spring Boot微服務(wù)框架實(shí)現(xiàn)的后端,以及React框架實(shí)現(xiàn)的前端等內(nèi)容。 第1章主要介紹各種類型的搜索引擎和開(kāi)發(fā)搜索引擎可以借助的軟件工具;第2章主要介紹網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)和數(shù)據(jù)存儲(chǔ);第3章主要介紹從HTML文件中提取文本,以及從PDF、Word等非HTML文件中提取文本;第4章主要介紹Lucene中的中文分析器的原理與實(shí)現(xiàn);第5章主要介紹Solr索引庫(kù)的創(chuàng)建與維護(hù),以及Solr的查詢解析器;第6章主要介紹Web方式搜索結(jié)果界面的實(shí)現(xiàn);第7章主要介紹如何使用SolrCloud實(shí)現(xiàn)分布式搜索。

作者簡(jiǎn)介

  獵兔搜索技術(shù)創(chuàng)始人曾經(jīng)擔(dān)任國(guó)防大學(xué)科研處 技術(shù)顧問(wèn)工信部 輿情開(kāi)發(fā)顧問(wèn)東南大學(xué) 社會(huì)導(dǎo)師首都師范大學(xué) 金融課程講師北京石油化工學(xué)院 社會(huì)導(dǎo)師北大光華管理學(xué)院 技術(shù)顧問(wèn)藍(lán)汛公司搜索集群技術(shù)咨詢顧問(wèn)新東方 創(chuàng)新研究院 研究員

圖書(shū)目錄

第1章 遍歷搜索引擎技術(shù)\t1
1.1 快速上手搜索引擎\t1
1.1.1 準(zhǔn)備工作環(huán)境\t1
1.1.2 生成索引\t3
1.1.3 關(guān)鍵詞查詢\t8
1.1.4 實(shí)現(xiàn)搜索界面\t10
1.2 搜索語(yǔ)法\t22
1.3 你也可以做搜索引擎\t24
1.4 搜索引擎的基本技術(shù)\t25
1.4.1 網(wǎng)絡(luò)爬蟲(chóng)\t25
1.4.2 全文索引結(jié)構(gòu)\t26
1.4.3 Solr全文檢索引擎\t27
1.4.4 Nutch網(wǎng)絡(luò)搜索軟件\t27
1.4.5 用戶界面\t28
1.5 商業(yè)搜索引擎技術(shù)概述\t29
1.5.1 通用搜索\t30
1.5.2 垂直搜索\t30
1.5.3 站內(nèi)搜索\t31
1.6 本章小結(jié)\t32
第2章 獲得海量數(shù)據(jù)\t34
2.1 自己的網(wǎng)絡(luò)爬蟲(chóng)\t34
2.1.1 使用URL訪問(wèn)網(wǎng)絡(luò)資源\t34
2.1.2 重試\t37
2.1.3 網(wǎng)絡(luò)爬蟲(chóng)的遍歷與實(shí)現(xiàn)\t44
2.1.4 多線程爬蟲(chóng)\t48
2.1.5 Log4j2日志\t49
2.1.6 存儲(chǔ)URL地址\t51
2.1.7 定向采集\t57
2.1.8 暗網(wǎng)抓取\t58
2.1.9 Selenium抓取動(dòng)態(tài)頁(yè)面\t59
2.1.10 圖片抓取\t61
2.2 數(shù)據(jù)存儲(chǔ)\t62
2.2.1 寫(xiě)入文件\t63
2.2.2 Jdbi寫(xiě)入數(shù)據(jù)庫(kù)\t63
2.3 本地部署\t66
2.4 本章小結(jié)\t66
第3章 提取文檔中的文本內(nèi)容\t68
3.1 從HTML文件中提取文本\t68
3.1.1 使用HTMLParser實(shí)現(xiàn)定向抓取\t71
3.1.2 結(jié)構(gòu)化信息提取\t80
3.1.3 網(wǎng)頁(yè)的DOM結(jié)構(gòu)\t83
3.1.4 網(wǎng)頁(yè)去噪\t85
3.1.5 正文提取\t87
3.2 從非HTML文件中提取文本\t92
3.2.1 PDF文件\t95
3.2.2 Word文件\t96
3.2.3 Rtf文件\t98
3.2.4 Excel文件\t98
3.2.5 PowerPoint文件\t99
3.2.6 從圖片中提取文本\t100
3.3 流媒體內(nèi)容提取\t101
3.3.1 音頻流內(nèi)容提取\t101
3.3.2 視頻流內(nèi)容提取\t102
3.4 本章小結(jié)\t103
第4章 中文分詞\t104
4.1 Lucene中的中文分詞\t104
4.2 中文分詞的原理\t105
4.3 查找詞典算法\t106
4.4 句子切分\t112
4.5 有限狀態(tài)機(jī)識(shí)別未登錄串\t113
4.6 最大概率分詞方法\t117
4.7 N元分詞方法\t125
4.7.1 二元詞典\t125
4.7.2 二元分詞\t135
4.7.3 開(kāi)發(fā)中文分析器\t139
4.8 新詞發(fā)現(xiàn)\t150
4.9 命名實(shí)體識(shí)別\t152
4.9.1 人名識(shí)別\t152
4.9.2 組織機(jī)構(gòu)名稱識(shí)別\t160
4.9.3 化學(xué)物質(zhì)識(shí)別\t161
4.10 詞性標(biāo)注\t162
4.11 平滑算法\t173
4.12 地名切分\t176
4.13 本章小結(jié)\t182
第5章 Solr服務(wù)器端開(kāi)發(fā)\t183
5.1 在Linux操作系統(tǒng)中安裝Solr\t183
5.2 創(chuàng)建和維護(hù)索引庫(kù)\t186
5.3 索引本地硬盤(pán)上的文件\t191
5.4 使用Bean索引文檔\t192
5.5 更新索引庫(kù)中的索引文檔\t194
5.6 刪除數(shù)據(jù)\t195
5.7 檢測(cè)索引\t195
5.8 查詢解析器\t196
5.9 本章小結(jié)\t196
第6章 用戶界面的設(shè)計(jì)與實(shí)現(xiàn)\t197
6.1 Solr搜索接口(search代碼)\t197
6.2 搜索頁(yè)面設(shè)計(jì)\t198
6.2.1 用于顯示搜索結(jié)果的模板\t200
6.2.2 搜索結(jié)果分頁(yè)\t202
6.2.3 測(cè)試搜索結(jié)果頁(yè)\t215
6.2.4 界面國(guó)際化\t216
6.2.5 用于Solr的Spring Data\t219
6.2.6 Spring-HATEOAS實(shí)現(xiàn)REST架構(gòu)\t221
6.3 實(shí)現(xiàn)搜索接口\t224
6.3.1 基本查詢\t224
6.3.2 布爾搜索\t226
6.3.3 指定范圍搜索\t226
6.3.4 搜索結(jié)果排序\t227
6.4 實(shí)現(xiàn)聚合\t228
6.5 實(shí)現(xiàn)相似文檔搜索\t234
6.6 實(shí)現(xiàn)自動(dòng)完成\t235
6.6.1 總體結(jié)構(gòu)\t236
6.6.2 服務(wù)器端處理\t236
6.6.3 自動(dòng)完成客戶端\t238
6.7 搜索日志\t244
6.8 React框架\t247
6.9 本章小結(jié)\t251
第7章 Solr分布式搜索\t252
7.1 使用Solr實(shí)現(xiàn)分布式搜索\t252
7.1.1 使用SolrCloud\t252
7.1.2 分片\t254
7.1.3 管理集群\t254
7.1.4 SolrCloud工作原理\t255
7.1.5 ZooKeeper分布式協(xié)調(diào)器\t256
7.2 Jenkins持續(xù)集成\t258
7.3 本章小結(jié)\t259
參考文獻(xiàn)\t260

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)