本書圍繞大數(shù)據(jù)采集,對采集技術(shù)的相關(guān)基礎(chǔ)、技術(shù)原理、 Py t hon實現(xiàn)技術(shù)、大數(shù)據(jù)挖掘與應(yīng)用方法 進(jìn)行了系統(tǒng)介紹。書中全面、完整地覆蓋了各種類型的網(wǎng)絡(luò)爬蟲及相關(guān)的信息處理挖掘技術(shù),并提 供了27個與爬蟲技術(shù)和應(yīng)用相關(guān)的Py t hon程序。全書共分為四大部分,即概述、基礎(chǔ)篇、技術(shù)與實現(xiàn)篇 、大數(shù)據(jù)挖掘與應(yīng)用篇。第一部分是概述,首先指出了利用Py t hon采集互聯(lián)網(wǎng)大數(shù)據(jù)的重要性,介紹了 相關(guān)技術(shù)研究、技術(shù)體系、 Py t hon爬蟲采集技術(shù)的合規(guī)性及應(yīng)用現(xiàn)狀等; 第二部分是基礎(chǔ)篇,包括 Web服務(wù)器的應(yīng)用架構(gòu)以及HTTP、 Robo t s、 HTML、頁面編碼等相關(guān)協(xié)議和規(guī)范; 第三部分是技術(shù)與 實現(xiàn)篇,全面介紹了普通網(wǎng)絡(luò)爬蟲技術(shù)、動態(tài)頁面采集方法、主題爬蟲技術(shù)、 De ep Web爬蟲、微博信息采集 、Web信息提取以及反爬蟲技術(shù)等,內(nèi)容涵蓋了各種爬蟲技術(shù)實現(xiàn)方法及Py t hon例子; 第四部分是 大數(shù)據(jù)挖掘與應(yīng)用篇,介紹了用于爬蟲應(yīng)用中的典型大數(shù)據(jù)處理與挖掘技術(shù)以及 Web大數(shù)據(jù)采集的常 見應(yīng)用模式,并以新聞采集與分析、 SQL注入在線檢測為例介紹了Py t hon爬蟲應(yīng)用構(gòu)建方法,將本書介 紹的一些關(guān)鍵技術(shù)、模型和工具貫穿在一起。
作者簡介
曾劍平,博士,復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院副教授、碩士生導(dǎo)師。曾供職于軟件公司并擔(dān)任總工程師。擔(dān)任International Journal of Network Security(信息安全、EI源刊)、Journal of Emerging Technologies in Web Intelligence(Web智能)、《計算機(jī)工程與應(yīng)用》等多個國內(nèi)外知名學(xué)術(shù)期刊的編委。擔(dān)任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、計算機(jī)科學(xué)、小型微型計算機(jī)系統(tǒng)等多個國內(nèi)外學(xué)術(shù)期刊的審稿專家。近十多年來,申請專利10多項,其中5項為授權(quán)發(fā)明專利(第一發(fā)明人),獲得1項軟件著作權(quán)(第一完成人)。主持國家自然科學(xué)基金面上項目、上海市自然科學(xué)基金項目、教育部課題以及企業(yè)委托項目多項,參與國家重點科技計劃、國家信息化專家咨詢委員會、國家保密局、上??莆约捌髽I(yè)合作等項目研究。目前主要研究方向是社交媒體分析及應(yīng)用、網(wǎng)絡(luò)輿情分析技術(shù)和大數(shù)據(jù)安全。作為第一作者和通訊作者發(fā)表相關(guān)技術(shù)方向的論文60多篇,其中有10多篇是在國際著名學(xué)術(shù)期刊上。