深入搜索引擎：海量信息的壓縮、索引和查詢(xún)

定　價(jià)：￥79.00

作　者：	（新）威頓（Witten，I.H.），（澳）莫夫特（Moffat，A.），（新）貝爾（Bell，T.C.）著，梁斌譯
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	檔案學(xué)

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787121084911	出版時(shí)間：	2009-06-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	540	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《深入搜索引擎：海量信息的壓縮、索引和查詢(xún)》是斯坦福大學(xué)信息檢索和挖掘課程的首選教材之一，并已成為全球主要大學(xué)信息檢索的主要教材?！渡钊胨阉饕妫汉Ａ啃畔⒌膲嚎s、索引和查詢(xún)》理論和實(shí)踐并重，深入淺出地給出了海量信息數(shù)據(jù)處理的整套解決方案，包括壓縮、索引和查詢(xún)的方方面面。其最大的特色在于不僅僅滿(mǎn)足信息檢索理論學(xué)習(xí)的需要，更重要的是給出了實(shí)踐中可能面對(duì)的各種問(wèn)題及其解決方法?！渡钊胨阉饕妫汉Ａ啃畔⒌膲嚎s、索引和查詢(xún)》作為斯坦福大學(xué)信息檢索課程的教材之一，具有一定的閱讀難度，主要面向信息檢索專(zhuān)業(yè)高年級(jí)本科生和研究生、搜索引擎業(yè)界的專(zhuān)業(yè)技術(shù)人員和從事海量數(shù)據(jù)處理相關(guān)專(zhuān)業(yè)的技術(shù)人員。

作者簡(jiǎn)介

　　Ian H.Witten 是新西蘭Waikato大學(xué)計(jì)算系科學(xué)系教授，是ACM、新西蘭皇家學(xué)會(huì)會(huì)員。是英國(guó)、美國(guó)、加拿大和新西蘭的專(zhuān)業(yè)計(jì)算、信息檢索和工程協(xié)會(huì)會(huì)員。他是《The Reactive Keyboard》和《Text Compression》的作者之一，這兩本書(shū)分別出版于1992年和1990年。各大會(huì)議和期刊論文都能看到他的論文。Alistair Moffat是墨爾本大學(xué)計(jì)算科學(xué)系的副教授。在各大會(huì)議和期刊中發(fā)表了大量論文，這些論文包括的領(lǐng)域有：關(guān)于文本和圖像壓縮的算法和數(shù)據(jù)結(jié)構(gòu)，字典和優(yōu)先級(jí)隊(duì)列的自適應(yīng)數(shù)據(jù)結(jié)構(gòu)，以及自適應(yīng)搜索和排序算法。Timothy C.Bell是Canterbury大學(xué)計(jì)算機(jī)科學(xué)系系主任。是出版于1990年的《Text Compression》一書(shū)的作者。在各大期刊和會(huì)議上發(fā)表了多篇論文，這些論文涉及文本和圖像壓縮，計(jì)算機(jī)和音樂(lè)，計(jì)算機(jī)教育等。

圖書(shū)目錄

第1章概覽
1.1 文檔數(shù)據(jù)庫(kù)（DOCUMENT DATABASES）
1.2 壓縮（COMPRESSION）
1.3 索引（INDEXES）
1.4 文檔索引
1.5 MG海量文檔管理系統(tǒng)
1.6 進(jìn)一步閱讀
第2章文本壓縮
2.1 模型
2.2 自適應(yīng)模型
2.3 哈夫曼編碼
范式哈夫曼編碼
計(jì)算哈夫曼編碼長(zhǎng)度
總結(jié)
2.4 算術(shù)編碼
算術(shù)編碼是如何工作的
實(shí)現(xiàn)算術(shù)編碼
保存累積計(jì)數(shù)
2.5 符號(hào)模型
部分匹配預(yù)測(cè)
塊排序壓縮
動(dòng)態(tài)馬爾科夫壓縮
基于單字的壓縮
2.6 字典模型
自適應(yīng)字典編碼器的LZ77系列
LZ77的Gzip變體
自適應(yīng)字典編碼器的LZ78系列
LZ78的LZW變體
2.7 同步
創(chuàng)造同步點(diǎn)
自同步編碼
2.8 性能比較
壓縮性能
壓縮速度
其他性能方面的考慮
2.9 進(jìn)一步閱讀
第3章索引
3.1 樣本文檔集合
3.2 倒排文件索引
3.3 壓縮倒排文件
無(wú)參模型（Nonparameterized models）
全局貝努里模型
全局觀(guān)測(cè)頻率模型（Global observed frequency model）
局部貝努里模型（Local Bernoulli model）
有偏貝努里模型（Skewed Bernoulli model）
局部雙曲模型（Local hyperbolic model）
局部觀(guān)測(cè)頻率模型（Local observed frequency model）
上下文相關(guān)壓縮（Context-sensitive compression）
3.4 索引壓縮方法的效果
3.5 簽名文件和位圖
簽名文件
位片簽名文件（Bitsliced signature files）
簽名文件分析
位圖
簽名文件和位圖的壓縮
3.6 索引方法的比較
3.7 大小寫(xiě)折疊、詞根化和停用詞
大小寫(xiě)折疊
詞根化
影響索引長(zhǎng)度的因素
停用詞（stop word）
3.8 進(jìn)一步閱讀
第4章查詢(xún)
4.1 訪(fǎng)問(wèn)字典的方法
訪(fǎng)問(wèn)數(shù)據(jù)結(jié)構(gòu)
前端編碼（Front coding）
最小完美哈希函數(shù)
完美哈希函數(shù)的設(shè)計(jì)
基于磁盤(pán)的字典存儲(chǔ)
4.2 部分指定的查詢(xún)術(shù)語(yǔ)
字符串暴力匹配（Brute-force string matching）
用n-gram索引
循環(huán)字典（Rotated lexicon）
4.3 布爾查詢(xún)（BOOLEAN QUERY）
合取查詢(xún)（conjunctive query）
術(shù)語(yǔ)處理順序
隨機(jī)訪(fǎng)問(wèn)和快速查找
分塊倒排索引
非合取查詢(xún)（Nonconjunctive query）
4.4 信息檢索和排名
坐標(biāo)匹配（Coordinate matching）
內(nèi)積相似度
向量空間模型
4.5 檢索效果評(píng)價(jià)
召回率和精確率
召回率-精確率曲線(xiàn)
TREC項(xiàng)目 208
萬(wàn)維網(wǎng)搜索（World Wide Web Searching）
其他有效性評(píng)價(jià)方法
4.6 余弦法實(shí)現(xiàn)
文檔內(nèi)頻率
余弦值的計(jì)算方法
文檔權(quán)重所需的內(nèi)存
累加器內(nèi)存
快速查詢(xún)處理
按頻率排序的索引
排序
4.7 交互式檢索
相關(guān)性反饋
概率模型
4.8 分布式檢索
4.9 進(jìn)一步閱讀
第5章索引構(gòu)造
第6章圖像壓縮
第7章文本圖像
第8章混合圖文
第9章系統(tǒng)實(shí)現(xiàn)
第10章信息爆炸
附錄A MG系統(tǒng)指南
附錄B 新西蘭圖書(shū)館