久久人人做人人妻人人玩精品hd,精品国产成人av在线,好姑娘在线视频免费观看 ,含羞草电影免费看韩国,果冻传媒一区

當(dāng)前位置 : 首頁  圖書 正文

Spark快速大數(shù)據(jù)分析 簡介,目錄書摘

2020-02-06 17:29 來源:京東 作者:京東
spark快速大數(shù)據(jù)分析
Spark快速大數(shù)據(jù)分析
暫無報(bào)價(jià)
1.3萬+評(píng)論 98%好評(píng)
編輯推薦:  Spark開發(fā)者出品!
  《Spark快速大數(shù)據(jù)分析》是一本為Spark初學(xué)者準(zhǔn)備的書,它沒有過多深入實(shí)現(xiàn)細(xì)節(jié),而是更多關(guān)注上層用戶的具體用法。不過,本書絕不僅僅限于Spark的用法,它對(duì)Spark的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
  本書介紹了開源集群計(jì)算系統(tǒng)Apache Spark,它可以加速數(shù)據(jù)分析的實(shí)現(xiàn)和運(yùn)行。利用Spark,你可以用Python、Java以及Scala的簡易API來快速操控大規(guī)模數(shù)據(jù)集。
  本書由Spark開發(fā)者編寫,可以讓數(shù)據(jù)科學(xué)家和工程師即刻上手。你能學(xué)到如何使用簡短的代碼實(shí)現(xiàn)復(fù)雜的并行作業(yè),還能了解從簡單的批處理作業(yè)到流處理以及機(jī)器學(xué)習(xí)等應(yīng)用。
內(nèi)容簡介:  《Spark快速大數(shù)據(jù)分析》由 Spark 開發(fā)者及核心成員共同打造,講解了網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark,它帶領(lǐng)讀者快速掌握用 Spark 收集、計(jì)算、簡化和保存海量數(shù)據(jù)的方法,學(xué)會(huì)交互、迭代和增量式分析,解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題。
作者簡介:  Holden Karau,是Databricks的軟件開發(fā)工程師,活躍于開源社區(qū)。她還著有《Spark快速數(shù)據(jù)處理》。

  Andy Konwinski,是Databricks聯(lián)合創(chuàng)始人,Apache Spark項(xiàng)目技術(shù)專家,還是Apache Mesos項(xiàng)目的聯(lián)合發(fā)起人。

  Patrick Wendell,是Databricks聯(lián)合創(chuàng)始人,也是Apache Spark項(xiàng)目技術(shù)專家。他還負(fù)責(zé)維護(hù)Spark核心引擎的幾個(gè)子系統(tǒng)。

  Matei Zaharia,是Databricks的CTO,同時(shí)也是Apache Spark項(xiàng)目發(fā)起人以及Apache基金會(huì)副主席。
目錄:推薦序  xi
譯者序  xiv
序  xvi
前言  xvii
第1章 Spark數(shù)據(jù)分析導(dǎo)論  1
1.1 Spark是什么  1
1.2 一個(gè)大一統(tǒng)的軟件?! ?
1.2.1 Spark Core  2
1.2.2 Spark SQL  3
1.2.3 Spark Streaming  3
1.2.4 MLlib  3
1.2.5 GraphX  3
1.2.6 集群管理器  4
1.3 Spark的用戶和用途  4
1.3.1 數(shù)據(jù)科學(xué)任務(wù)  4
1.3.2 數(shù)據(jù)處理應(yīng)用  5
1.4 Spark簡史  5
1.5 Spark的版本和發(fā)布  6
1.6 Spark的存儲(chǔ)層次  6
第2章 Spark下載與入門  7
2.1 下載Spark  7
2.2 Spark中Python和Scala的shell  9
2.3 Spark 核心概念簡介  12
2.4 獨(dú)立應(yīng)用  14
2.4.1 初始化SparkContext  15
2.4.2 構(gòu)建獨(dú)立應(yīng)用  16
2.5 總結(jié)  19
第3章 RDD編程  21
3.1 RDD基礎(chǔ)  21
3.2 創(chuàng)建RDD  23
3.3 RDD操作  24
3.3.1 轉(zhuǎn)化操作  24
3.3.2 行動(dòng)操作  26
3.3.3 惰性求值  27
3.4 向Spark傳遞函數(shù)  27
3.4.1 Python  27
3.4.2 Scala  28
3.4.3 Java  29
3.5 常見的轉(zhuǎn)化操作和行動(dòng)操作  30
3.5.1 基本RDD  30
3.5.2 在不同RDD類型間轉(zhuǎn)換  37
3.6 持久化( 緩存)  39
3.7 總結(jié)  40
第4章 鍵值對(duì)操作  41
4.1 動(dòng)機(jī)  41
4.2 創(chuàng)建Pair RDD  42
4.3 Pair RDD的轉(zhuǎn)化操作  42
4.3.1 聚合操作  45
4.3.2 數(shù)據(jù)分組  49
4.3.3 連接  50
4.3.4 數(shù)據(jù)排序  51
4.4 Pair RDD的行動(dòng)操作  52
4.5 數(shù)據(jù)分區(qū)(進(jìn)階)  52
4.5.1 獲取RDD的分區(qū)方式  55
4.5.2 從分區(qū)中獲益的操作  56
4.5.3 影響分區(qū)方式的操作  57
4.5.4 示例:PageRank  57
4.5.5 自定義分區(qū)方式  59
4.6 總結(jié)  61
第5章 數(shù)據(jù)讀取與保存  63
5.1 動(dòng)機(jī)  63
5.2 文件格式  64
5.2.1 文本文件  64
5.2.2 JSON  66
5.2.3 逗號(hào)分隔值與制表符分隔值  68
5.2.4 SequenceFile  71
5.2.5 對(duì)象文件  73
5.2.6 Hadoop輸入輸出格式  73
5.2.7 文件壓縮  77
5.3 文件系統(tǒng)  78
5.3.1 本地/“常規(guī)”文件系統(tǒng)  78
5.3.2 Amazon S3  78
5.3.3 HDFS  79
5.4 Spark SQL中的結(jié)構(gòu)化數(shù)據(jù)  79
5.4.1 Apache Hive  80
5.4.2 JSON  80
5.5 數(shù)據(jù)庫  81
5.5.1 Java數(shù)據(jù)庫連接  81
5.5.2 Cassandra  82
5.5.3 HBase  84
5.5.4 Elasticsearch  85
5.6 總結(jié)  86
第6章 Spark編程進(jìn)階  87
6.1 簡介  87
6.2 累加器  88
6.2.1 累加器與容錯(cuò)性  90
6.2.2 自定義累加器  91
6.3 廣播變量  91
6.4 基于分區(qū)進(jìn)行操作  94
6.5 與外部程序間的管道  96
6.6 數(shù)值RDD 的操作  99
6.7 總結(jié)  100
第7章 在集群上運(yùn)行Spark  101
7.1 簡介  101
7.2 Spark運(yùn)行時(shí)架構(gòu)  101
7.2.1 驅(qū)動(dòng)器節(jié)點(diǎn)  102
7.2.2 執(zhí)行器節(jié)點(diǎn)  103
7.2.3 集群管理器  103
7.2.4 啟動(dòng)一個(gè)程序  104
7.2.5 小結(jié)  104
7.3 使用spark-submit 部署應(yīng)用  105
7.4 打包代碼與依賴  107
7.4.1 使用Maven構(gòu)建的用Java編寫的Spark應(yīng)用  108
7.4.2 使用sbt構(gòu)建的用Scala編寫的Spark應(yīng)用  109
7.4.3 依賴沖突   111
7.5 Spark應(yīng)用內(nèi)與應(yīng)用間調(diào)度  111
7.6 集群管理器  112
7.6.1 獨(dú)立集群管理器  112
7.6.2 Hadoop YARN  115
7.6.3 Apache Mesos  116
7.6.4 Amazon EC2  117
7.7 選擇合適的集群管理器  120
7.8 總結(jié)  121
第8章 Spark調(diào)優(yōu)與調(diào)試  123
8.1 使用SparkConf配置Spark  123
8.2 Spark執(zhí)行的組成部分:作業(yè)、任務(wù)和步驟  127
8.3 查找信息  131
8.3.1 Spark網(wǎng)頁用戶界面  131
8.3.2 驅(qū)動(dòng)器進(jìn)程和執(zhí)行器進(jìn)程的日志  134
8.4 關(guān)鍵性能考量  135
8.4.1 并行度  135
8.4.2 序列化格式  136
8.4.3 內(nèi)存管理  137
8.4.4 硬件供給  138
8.5 總結(jié)  139
第9章 Spark SQL  141
9.1 連接Spark SQL  142
9.2 在應(yīng)用中使用Spark SQL  144
9.2.1 初始化Spark SQL  144
9.2.2 基本查詢示例  145
9.2.3 SchemaRDD  146
9.2.4 緩存  148
9.3 讀取和存儲(chǔ)數(shù)據(jù)  149
9.3.1 Apache Hive  149
9.3.2 Parquet  150
9.3.3 JSON  150
9.3.4 基于RDD  152
9.4 JDBC/ODBC服務(wù)器  153
9.4.1 使用Beeline  155
9.4.2 長生命周期的表與查詢  156
9.5 用戶自定義函數(shù)  156
9.5.1 Spark SQL UDF  156
9.5.2 Hive UDF  157
9.6 Spark SQL性能  158
9.7 總結(jié)  159
第10章 Spark Streaming  161
10.1 一個(gè)簡單的例子  162
10.2 架構(gòu)與抽象  164
10.3 轉(zhuǎn)化操作  167
10.3.1 無狀態(tài)轉(zhuǎn)化操作  167
10.3.2 有狀態(tài)轉(zhuǎn)化操作  169
10.4 輸出操作  173
10.5 輸入源  175
10.5.1 核心數(shù)據(jù)源  175
10.5.2 附加數(shù)據(jù)源  176
10.5.3 多數(shù)據(jù)源與集群規(guī)模  179
10.6 24/7不間斷運(yùn)行  180
10.6.1 檢查點(diǎn)機(jī)制  180
10.6.2 驅(qū)動(dòng)器程序容錯(cuò)  181
10.6.3 工作節(jié)點(diǎn)容錯(cuò)  182
10.6.4 接收器容錯(cuò)  182
10.6.5 處理保證  183
10.7 Streaming用戶界面  183
10.8 性能考量  184
10.8.1 批次和窗口大小  184
10.8.2 并行度  184
10.8.3 垃圾回收和內(nèi)存使用  185
10.9 總結(jié)  185
第11章 基于MLlib的機(jī)器學(xué)習(xí)  187
11.1 概述  187
11.2 系統(tǒng)要求  188
11.3 機(jī)器學(xué)習(xí)基礎(chǔ)  189
11.4 數(shù)據(jù)類型  192
11.5 算法  194
11.5.1 特征提取  194
11.5.2 統(tǒng)計(jì)  196
11.5.3 分類與回歸  197
11.5.4 聚類  202
11.5.5 協(xié)同過濾與推薦  203
11.5.6 降維  204
11.5.7 模型評(píng)估  206
11.6 一些提示與性能考量  206
11.6.1 準(zhǔn)備特征  206
11.6.2 配置算法  207
11.6.3 緩存RDD以重復(fù)使用  207
11.6.4 識(shí)別稀疏程度  207
11.6.5 并行度  207
11.7 流水線API  208
11.8 總結(jié)  209
作者簡介  210
封面介紹  210
熱門推薦文章
相關(guān)優(yōu)評(píng)榜
品類齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無憂
購物指南
購物流程
會(huì)員介紹
生活旅行/團(tuán)購
常見問題
大家電
聯(lián)系客服
配送方式
上門自提
211限時(shí)達(dá)
配送服務(wù)查詢
配送費(fèi)收取標(biāo)準(zhǔn)
海外配送
支付方式
貨到付款
在線支付
分期付款
郵局匯款
公司轉(zhuǎn)賬
售后服務(wù)
售后政策
價(jià)格保護(hù)
退款說明
返修/退換貨
取消訂單
特色服務(wù)
奪寶島
DIY裝機(jī)
延保服務(wù)
京東E卡
京東通信
京東JD+