Apache spark是一款全新開發(fā)的分布式框架,特別對低延遲任務和內存數(shù)據(jù)存儲進行了優(yōu)化。它結合了速度、可擴展性、內存處理以及容錯性,是極少數(shù)適用于并行計算的框架之一,同時還非常易于編程,擁有一套靈活、表達能力豐富、功能強大的API設計?!禨park機器學習(影印版 英文版)》指導你學習用于載入及處理數(shù)據(jù)的spark APl的基礎知識,以及如何為各種機器學習模型準備適合的輸入數(shù)據(jù):另有詳細的例子和實際生活中的真實案例來幫助你學習包括推薦系統(tǒng)、分類、回歸、聚類、降維在內的常見機器學習模型,你還會看到如大規(guī)模文本處理之類的高級主題、在線機器學習的相關方法以及使用spa rk st reami ng進行模型評估。