本書簡要介紹了Spark基礎(chǔ)知識,重在通過詳細的例子和現(xiàn)實應(yīng)用來講解常見機器學(xué)習(xí)模型,并涉及大規(guī)模文本數(shù)據(jù)的處理、Spark Streaming下的在線機器學(xué)習(xí)和模型評估方法,以及使用Spark ML Pipeline API創(chuàng)建和調(diào)試機器學(xué)習(xí)流程等。第2版經(jīng)過全面修訂,新增有關(guān)機器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)以及Spark ML Pipeline API的章節(jié),內(nèi)容更加系統(tǒng)、全面、與時俱進,適合所有欲借助Spark來實現(xiàn)常見機器學(xué)習(xí)應(yīng)用的開發(fā)者。
·Spark以及機器學(xué)習(xí)基礎(chǔ)知識介紹。
·獲取公開的機器學(xué)習(xí)數(shù)據(jù)集,使用Spark對數(shù)據(jù)進行載入、處理、清理和轉(zhuǎn)換。
·借助Spark機器學(xué)習(xí)庫,利用協(xié)同過濾、分類、回歸、聚類和降維等常見的機器學(xué)習(xí)模型來編寫程序。
·了解大規(guī)模文本數(shù)據(jù)的處理方法,包括特征提取和將文本數(shù)據(jù)作為機器學(xué)習(xí)模型的輸入。
·探索在線學(xué)習(xí)方法,利用Spark Streaming進行在線學(xué)習(xí)和模型評估。
·使用Spark ML Pipeline API創(chuàng)建和調(diào)試機器學(xué)習(xí)流程。
內(nèi)容簡介:本書結(jié)合案例研究講解Spark 在機器學(xué)習(xí)中的應(yīng)用,并介紹如何從各種公開渠道獲取用于機器學(xué)**統(tǒng)的數(shù)據(jù)。內(nèi)容涵蓋推薦系統(tǒng)、回歸、聚類、降維等經(jīng)典機器學(xué)習(xí)算法及其實際應(yīng)用。第2版新增了有關(guān)機器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)以及Spark ML Pipeline API 的章節(jié),內(nèi)容更加系統(tǒng)、全面、與時俱進。