搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)

定　價：￥39.80

作　者：	王亮編著
出版社：	清華大學出版社
叢編項：
標　簽：	J2EE

購買這本書可以去

ISBN：	9787302201472	出版時間：	2009-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	394	字數(shù)：

內(nèi)容簡介

　　《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)》的內(nèi)容中，既有教科書式的理論闡述，也有“七天入門”式的實例解析，還有《Linux內(nèi)核情景分析》風格的細致的代碼分析，甚至還有一些英語文獻翻譯，從初學者到有一定經(jīng)驗的搜索引擎開發(fā)人員，各個層次的讀者都能找到一些適合自己閱讀的章節(jié)。隨著網(wǎng)絡信息資源的急劇增長，人們越來越多地關注如何快速有效地從海量的網(wǎng)絡信息中，抽取出潛在的、有價值的信息，使之有效地在管理和決策中發(fā)揮作用。搜索引擎技術解決了用戶檢索網(wǎng)絡信息的困難，目前搜索引擎技術正成為計算機科學界和信息產(chǎn)業(yè)界爭相研究、開發(fā)的對象。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)》的作者是一位資深的搜索引擎開發(fā)人員，書中對數(shù)據(jù)獲?。ňW(wǎng)絡信息挖掘）與數(shù)據(jù)檢索（搜索引擎）兩個方面作了深入的介紹。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)》首先提出了一套“網(wǎng)絡數(shù)據(jù)挖掘”的完整理論，并給出一個實際的智能爬蟲系統(tǒng)，通過理論與實際的完整呈現(xiàn)，使讀者能夠?qū)Α熬W(wǎng)絡數(shù)據(jù)挖掘”有一個比較具體的認識，然后介紹了一個專用程序語言IRS，并給出了這個語言的編譯器以及虛擬機的實現(xiàn)方法?！端阉饕媪憔嚯x：基于Ruby+Java搜索引擎原理與實現(xiàn)》還通過對多個開源搜索引擎項目抽絲剝繭的細致分析，引出搜索引擎的一些基本原理與開發(fā)方法，并介紹了一個商業(yè)化搜索引擎的實例。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)》的最后還結(jié)合一個Java框架介紹了一些軟件設計思想。《搜索引擎零距離：基于Ruby+Java搜索引擎原理與實現(xiàn)》涉及網(wǎng)絡數(shù)據(jù)挖掘、搜索引擎原理、編譯原理、數(shù)據(jù)庫原理、正則表達式、軟件工程、設計模式、Ruby語言、HTTP協(xié)議等計算機科學與技術的知識，適合搜索引擎開發(fā)人員作為參考，也適合有一定計算機基礎的讀者閱讀，以擴展視野。

作者簡介

　　王亮，主持或參與過多個大中型索引擎開發(fā)與運營，具有豐富的搜索引擎算法理論知識與實際開發(fā)運營經(jīng)驗。曾任職于愛立信、Smarter.com、上海網(wǎng)村、上海邁眾，2009年創(chuàng)立上海睿驛信息技術有限公司并任CEO，致力于提供搜索引擎相關的產(chǎn)品和服務。

圖書目錄

第1章網(wǎng)頁數(shù)據(jù)挖掘.1
1.1 網(wǎng)頁數(shù)據(jù)挖掘定義1
1.2 Web數(shù)據(jù)挖掘面臨的問題1
1.3 Web數(shù)據(jù)挖掘的分類1
1.4 網(wǎng)頁數(shù)據(jù)的結(jié)構與特點3
1.4.1 HTML超文本標記語言3
1.4.2 WML無線標記語言4
1.5 網(wǎng)頁數(shù)據(jù)挖掘的基本方法6
1.5.1 預備知識7
1.5.2 變量模板匹配方法8
1.5.3 樹節(jié)點直接標識方法10
1.5.4 語義規(guī)則識別方法13
第2章智能網(wǎng)絡爬蟲14
2.1 智能網(wǎng)絡爬蟲的定義與特點14
2.2 抓取入口定義14
2.3 次級頁面自動發(fā)現(xiàn)14
2.4 次級頁面地址拼接16
2.5 已爬地址處理17
2.6 信息采集強度控制19
2.7 模擬用戶登錄19
2.8 驗證碼識別20
2.9 代理服務器設置20
2.10 JavaScript解析控制21
第3章網(wǎng)頁信息挖掘?qū)Ｓ贸绦蛟O計語言IRS23
3.1 IRS語言的簡介與設計原則23
3.2 IRS腳本語法結(jié)構23
3.2.1 頁面配置塊23
3.2.2 頁面名語句23
3.2.3 爬蟲配置聲明語句24
3.2.4 入口聲明語句24
3.2.5 編碼配置26
3.2.6 步長配置26
3.2.7 重試次數(shù)配置27
3.2.8 正則模式匹配語句27
3.2.9 匹配名聲明28
3.2.10 IEE表達式28
3.2.11 模式匹配修飾符29
3.2.12 節(jié)點模式匹配語句32
3.2.13 次級頁面入口語句..3 3
3.2.14 保存語句35
3.2.15 Ruby控制語句35
3.2.16 爬蟲配置語句37
3.2.17 系統(tǒng)配置語句37
3.2.18 外部配置文件38
3.2.19 執(zhí)行語句塊39
3.2.20 IRQL存儲語句40
3.2.21 IRQL語言中的數(shù)據(jù)表44
3.2.22 IRQL內(nèi)部函數(shù)49
3.2.23 實例解析55
第4章 IRS虛擬機及編譯器實現(xiàn)原理69
4.1 Ruby基本語法70
4.1.1 字句構造和表達式70
4.1.2 字面值71
4.1.3 控制結(jié)構74
4.1.4 類和方法的定義80
4.1.5 運算符表達式84
4.1.6 變量和常量89
4.1.7 方法調(diào)用91
4.2 Java與JRuby的整合93
4.2.1 Java中的Ruby運行庫環(huán)境93
4.2.2 IRSReflectionCallback類實現(xiàn)94
4.2.3 在Java中編譯執(zhí)行Ruby腳本99
4.2.4 Java內(nèi)嵌Ruby
方法總結(jié)100
4.3 詞法分析和語法分析101
4.3.1 定義與簡介101
4.3.2 SableCC103
4.4 IRS語言的語義分析137
4.5 IRVM虛擬機主類146
4.5.1 generateEntrance()147
4.5.2 getContent()149
4.5.3 match()160
4.5.4 Save()174
4.5.5 compileAndRun()198
第5章搜索引擎設計原理200
5.1 概述200
5.2 Lucene搜索引擎的原理205
5.2.1 工作方式205
5.2.2 基本概念206
5.2.3 包結(jié)構207
5.2.4 索引操作208
5.2.5 搜索210
5.2.6 分析器214
5.2.7 性能優(yōu)化215
5.2.8 并行集群216
5.3 Hadoop搜索引擎的原理220
5.3.1 組成結(jié)構220
5.3.2 開發(fā)與使用222
5.4 Nutch搜索引擎的原理226
5.4.1 簡介226
5.4.2 插件體系226
5.4.3 數(shù)據(jù)獲取與分析228
5.5 Compass搜索引擎的原理264
5.5.1 功能增強264
5.5.2 API簡化265
5.5.3 編程方式265
5.6 Solr搜索引擎的原理266
5.6.1 概述266
5.6.2 使用Solr269
第6章搜索引擎的商業(yè)化實現(xiàn)275
6.1 索引275
6.1.1 Solr實現(xiàn)275
6.1.2 MySE實現(xiàn)279
6.1.3 總結(jié)317
6.2 查詢317
6.2.1 Solr實現(xiàn)317
6.2.2 MySE實現(xiàn)318
6.2.3 總結(jié)358
第7章 Hivemind359
7.1 模塊(Modules)359
7.2 子模塊與依賴性(SubModules&Dependency)360
7.3 服務點(ServicePoints)361
7.4 攔截器(Interceptor)362
7.5 配置點(ConfigurationPoints)363
7.6 符號資源(SymbolSources)364
7.7 轉(zhuǎn)換器(Translators)365
7.8 對象提供器(ObjectProviders)368
7.9 服務模型(ServiceModels)370
7.10 啟動&預加載(Startup&EagerLoad)373
7.11 服務構造器376
后記與感謝393