注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)其他編程語(yǔ)言/工具自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)

自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)

自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)

定 價(jià):¥43.00

作 者: 羅剛 王振東
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì)

ISBN: 9787302236474 出版時(shí)間: 2010-10-01 包裝: 平裝
開(kāi)本: 16 頁(yè)數(shù): 346 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《自己動(dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)(附光盤)》介紹了網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)中的關(guān)鍵問(wèn)題與java實(shí)現(xiàn)。主要包括從互聯(lián)網(wǎng)獲取信息與提取信息和對(duì)web信息挖掘等內(nèi)容?!蹲约簞?dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)(附光盤)》在介紹基本原理的同時(shí)注重輔以具體代碼實(shí)現(xiàn)來(lái)幫助讀者加深理解,書中部分代碼甚至可以直接使用?!蹲约簞?dòng)手寫網(wǎng)絡(luò)爬蟲(chóng)(附光盤)》適用于有java程序設(shè)計(jì)基礎(chǔ)的開(kāi)發(fā)人員。同時(shí)也可以作為計(jì)算機(jī)相關(guān)專業(yè)本科生或研究生的參考教材。

作者簡(jiǎn)介

  羅剛,計(jì)算機(jī)軟件碩士,畢業(yè)于吉林工業(yè)大學(xué)。2005年創(chuàng)立北京盈智星科技發(fā)展有限公司,2008年聯(lián)合創(chuàng)立上海數(shù)聚軟件公司。獵兔搜索創(chuàng)始人,當(dāng)前獵兔搜索在北京和上海以及石家莊均設(shè)有研發(fā)部。帶領(lǐng)獵兔搜索技術(shù)開(kāi)發(fā)團(tuán)隊(duì)先后開(kāi)發(fā)出獵兔中文分詞系統(tǒng)、獵兔文本挖掘系統(tǒng),智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測(cè)系統(tǒng)等,實(shí)現(xiàn)互聯(lián)網(wǎng)信息的采集、過(guò)濾、搜索和實(shí)時(shí)監(jiān)測(cè),其開(kāi)發(fā)的搜索軟件日用戶訪問(wèn)量上萬(wàn)次以上。

圖書目錄

第1篇 自己動(dòng)手抓取數(shù)據(jù)
第1章 全面剖析網(wǎng)絡(luò)爬蟲(chóng)
1.1 抓取網(wǎng)頁(yè)
1.1.1 深入理解URL
1.1.2 通過(guò)指定的URL抓取網(wǎng)頁(yè)內(nèi)容
1.1.3 Java網(wǎng)頁(yè)抓取示例
1.1.4 處理HTTP狀態(tài)碼
1.2 寬度優(yōu)先爬蟲(chóng)和帶偏好的爬蟲(chóng)
1.2.1 圖的寬度優(yōu)先遍歷
1.2.2 寬度優(yōu)先遍歷互聯(lián)網(wǎng)
1.2.3 Java寬度優(yōu)先爬蟲(chóng)示例
1.2.4 帶偏好的爬蟲(chóng)
1.2.5 Java帶偏好的爬蟲(chóng)示例
1.3 設(shè)計(jì)爬蟲(chóng)隊(duì)列
1.3.1 爬蟲(chóng)隊(duì)列
1.3.2 使用Berkeley DB構(gòu)建爬蟲(chóng)隊(duì)列
1.3.3 使用Berkeley DB構(gòu)建爬蟲(chóng)隊(duì)列示例
1.3.4 使用布隆過(guò)濾器構(gòu)建Visited表
1.3.5 詳解Heritrix爬蟲(chóng)隊(duì)列
1.4 設(shè)計(jì)爬蟲(chóng)架構(gòu)
1.4.1 爬蟲(chóng)架構(gòu)
1.4.2 設(shè)計(jì)并行爬蟲(chóng)架構(gòu)
1.4.3 詳解Heritrix爬蟲(chóng)架構(gòu)
1.5 使用多線程技術(shù)提升爬蟲(chóng)性能
1.5.1 詳解Java多線程
1.5.2 爬蟲(chóng)中的多線程
1.5.3 一個(gè)簡(jiǎn)單的多線程爬蟲(chóng)實(shí)現(xiàn)
1.5.4 詳解Heritrix多線程結(jié)構(gòu)
1.6 本章小結(jié)

第2章 分布式爬蟲(chóng)
2.1 設(shè)計(jì)分布式爬蟲(chóng)
2.1.1 分布式與云計(jì)算
2.1.2 分布式與云計(jì)算技術(shù)在爬蟲(chóng)中的應(yīng)用——淺析Google的云計(jì)算架構(gòu)
2.2 分布式存儲(chǔ)
2.2.1 從Ralation_DB到key/value存儲(chǔ)
2.2.2 Consistent Hash算法
2.2.3 Consistent Hash代碼實(shí)現(xiàn)
2.3 Google的成功之道——GFS
2.3.1 GFS詳解
2.3.2 開(kāi)源GFS——HDFS
2.4 Google網(wǎng)頁(yè)存儲(chǔ)秘訣——BigTable
2.4.1 詳解BigTable
2.4.2 開(kāi)源BigTable——HBase
2.5 Google的成功之道——MapReduce算法
2.5.1 詳解MapReduce算法
2.5.2 MapReduce容錯(cuò)處理
2.5.3 MapReduce實(shí)現(xiàn)架構(gòu)
2.5.4 Hadoop中的MapReduce簡(jiǎn)介
2.5.5 wordCount例子的實(shí)現(xiàn)
2.6 Nutch中的分布式
2.6.1 Nutch爬蟲(chóng)詳解
2.6.2 Nutch中的分布式
2.7 本章小結(jié)

第3章 爬蟲(chóng)的“方方面面”
3.1 爬蟲(chóng)中的“黑洞”
3.2 限定爬蟲(chóng)和主題爬蟲(chóng)
3.2.1 理解主題爬蟲(chóng)
3.2.2 Java主題爬蟲(chóng)
3.2.3 理解限定爬蟲(chóng)
3.2.4 Java限定爬蟲(chóng)示例
3.3 有“道德”的爬蟲(chóng)
3.4 本章小結(jié)

第2篇 自己動(dòng)手抽取Web內(nèi)容
第4章 處理HTML頁(yè)面
4.1 征服正則表達(dá)式
4.1.1 學(xué)習(xí)正則表達(dá)式
4.1.2 Java正則表達(dá)式
4.2 抽取HTML正文
4.2.1 了解HtmlParser
4.2.2 使用正則表達(dá)式抽取示例
4.3 抽取正文
4.4 從JavaScript中抽取信息
4.4.1 JavaScript抽取方法
4.4.2 JavaScript抽取示例
4.5 本章小結(jié)

第5章 非HTML正文抽取
5.1 抽取PDF文件
5.1.1 學(xué)習(xí)PDFBox
5.1.2 使用PDFBox抽取示例
5.1.3 提取PDF文件標(biāo)題
5.1.4 處理PDF格式的公文
5.2 抽取Office文檔
5.2.1 學(xué)習(xí)POI
5.2.2 使用POI抽取Word示例
5.2.3 使用POI抽取PPT
5.2.4 使用POI抽取Excel示例
5.3 抽取RTF
5.3.1 開(kāi)源RTF文件解析器
5.3.2 實(shí)現(xiàn)一個(gè)RTF文件解析器
5.3.3 解析RTF示例
5.4 本章小結(jié)

第6章 多媒體抽取
6.1 抽取視頻
6.1.1 抽取視頻關(guān)鍵幀
6.1.2 Java視頻處理框架
6.1.3 Java視頻抽取示例
6.2 音頻抽取
6.2.1 抽取音頻
6.2.2 學(xué)習(xí)Java音頻抽取技術(shù)
6.3 本章小結(jié)

第7章 去掉網(wǎng)頁(yè)中的“噪聲”
7.1 噪聲對(duì)網(wǎng)頁(yè)的影響
7.2 利用“統(tǒng)計(jì)學(xué)”消除“噪聲”
7.2.1 網(wǎng)站風(fēng)格樹(shù)
7.2.2 統(tǒng)計(jì)學(xué)去噪Java實(shí)現(xiàn)
7.3 利用“視覺(jué)”消除“噪聲”
7.3.1 視覺(jué)與"噪聲"
7.3.2 視覺(jué)去噪Java實(shí)現(xiàn)
7.4 本章小結(jié)

第3篇 自己動(dòng)手挖掘Web數(shù)據(jù)
第8章 分析Web圖
8.1 存儲(chǔ)Web“圖”
8.2 利用Web“圖”分析鏈接
8.3 Google的秘密——PageRank
8.3.1 深入理解PageRank算法
8.3.2 PageRank算法的Java實(shí)現(xiàn)
8.3.3 應(yīng)用PageRank進(jìn)行鏈接分析
8.4 PageRank 的兄弟HITS
8.4.1 深入理解HITS算法
8.4.2 HITS算法的Java實(shí)現(xiàn)
8.4.3 應(yīng)用HITS進(jìn)行鏈接分析
8.5 PageRank與HITS的比較
8.6 本章小結(jié)

第9章 去掉重復(fù)的“文檔”
9.1 何為“重復(fù)”的文檔
9.2 去除“重復(fù)”文檔——排重
9.3 利用“語(yǔ)義指紋”排重
9.3.1 理解“語(yǔ)義指紋”
9.3.2 語(yǔ)義指紋排重的Java實(shí)現(xiàn)
9.4 SimHash排重
9.4.1 理解SimHash
9.4.2 SimHash排重的Java實(shí)現(xiàn)
9.5 分布式文檔排重
9.6 本章小結(jié)

第10章 分類與聚類的應(yīng)用
10.1 網(wǎng)頁(yè)分類
10.1.1 收集語(yǔ)料庫(kù)
10.1.2 選取網(wǎng)頁(yè)的“特征”
10.1.3 使用支持向量機(jī)進(jìn)行網(wǎng)頁(yè)分類
10.1.4 利用URL地址進(jìn)行網(wǎng)頁(yè)分類
10.1.5 使用AdaBoost進(jìn)行網(wǎng)頁(yè)分類
10.2 網(wǎng)頁(yè)聚類
10.2.1 深入理解DBScan算法
10.2.2 使用DBScan算法聚類實(shí)例
10.3 本章小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)