《Mahout實踐指南》是軟件開發(fā)專家數十年行業(yè)經驗的結晶,深入淺出地論述如何使用Mahout進行數據分類、聚類和預測,涉及Mahout開發(fā)環(huán)境、序列文件使用方式、整合Mahout和外部資源、實現樸素貝葉斯分類器、股市預測、頂棚聚類、頻譜預測、K-均值聚類等。本書是面向編程的,不涉及深奧的理論,簡單、易學,可以幫助讀者快速掌握Mahout的基本用法,實用性強。全書共分10章。第1章介紹如何在單臺機器上創(chuàng)建完整的Mahout開發(fā)環(huán)境。第2章重點介紹序列文件的使用方式。第3章詳細介紹如何使用命令行工具和代碼從RDBMS中讀寫數據。第4章詳細討論樸素貝葉斯分類器和互補樸素貝葉斯分類器的使用方法。第5章介紹如何使用logistic回歸和隨機森林預測股市。第6章描述Mahout框架中最常用的算法,包括大數據的聚類分析和分類。第7章描述頻譜聚類的使用方式。第8章描述使用K-均值(包括序列方式和MapReduce方式)對主題中的文本文檔進行分類。第9章介紹頻繁模式挖掘算法的使用方式。第10章描述使用遺傳算法解決旅行商問題和提取規(guī)則。