市面上N0.1本關(guān)于Hadoop與Spark大數(shù)據(jù)處理技巧的教程,提供了豐富的算法和工具。
《數(shù)據(jù)算法:Hadoop/Spark大數(shù)據(jù)處理技巧》介紹了很多基本設(shè)計(jì)模式、優(yōu)化技術(shù)和數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)解決方案,以解決生物信息學(xué)、基因組學(xué)、統(tǒng)計(jì)和社交網(wǎng)絡(luò)分析等領(lǐng)域的很多問題。這還概要介紹了MapReduce、Hadoop和Spark。
主要內(nèi)容包括:
■ 完成超大量交易的購(gòu)物籃分析。
■ 數(shù)據(jù)挖掘算法(K-均值、KNN和樸素貝葉斯)。
■ 使用超大基因組數(shù)據(jù)完成DNA和RNA測(cè)序。
■ 樸素貝葉斯定理和馬爾可夫鏈實(shí)現(xiàn)數(shù)據(jù)和市場(chǎng)預(yù)測(cè)。
■ 推薦算法和成對(duì)文檔相似性。
■ 線性回歸、Cox回歸和皮爾遜(Pearson)相關(guān)分析。
■ 等位基因頻率和DNA挖掘。
■ 社交網(wǎng)絡(luò)分析(推薦系統(tǒng)、三角形計(jì)數(shù)和情感分析)。
Mahmoud Parsian,計(jì)算機(jī)科學(xué)博士,是一位熱衷于實(shí)踐的軟件專家,作為開發(fā)人員、設(shè)計(jì)人員、架構(gòu)師和作者,他有30多年的軟件開發(fā)經(jīng)驗(yàn)。目前領(lǐng)導(dǎo)著Illumina的大數(shù)據(jù)團(tuán)隊(duì),在過去15年間,他主要從事Java (服務(wù)器端)、數(shù)據(jù)庫(kù)、MapReduce和分布式計(jì)算的有關(guān)工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。