本書以任務驅動為主線,圍繞企業(yè)級應用進行項目任務設計,主要內容包括數(shù)據(jù)采集與預處理準備、網絡爬蟲實踐、日志數(shù)據(jù)采集實踐和數(shù)據(jù)預處理實踐,全面地講述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技術,以及urllib、Selenium基本庫和BeautifulSoup解析庫的相關知識與應用案例。本書內容實用,可操作性強,語言精練、通俗易懂,可作為高等院校計算機應用技術、大數(shù)據(jù)技術與應用、軟件技術、云計算技術與應用等計算機相關專業(yè)的教材,也可作為大數(shù)據(jù)分析、云計算應用領域技術人員的參考用書。