首 頁
手機(jī)版

spark大數(shù)據(jù)實(shí)例開發(fā)教程 王家林pdf掃描版

一本實(shí)用參考書

spark大數(shù)據(jù)實(shí)例開發(fā)教程是面向Spark開發(fā)者的一本實(shí)用參考書,是大數(shù)據(jù)資深培訓(xùn)師王家林最新作品。本書內(nèi)容廣度和深度兼顧,書中內(nèi)容全面覆蓋了Spark技術(shù)的核心知識(shí)點(diǎn),全程注重從架構(gòu)的底層到上層,由宏觀到微觀的講解。全書都秉承“實(shí)戰(zhàn)”類圖書特色,解析大量案例和代碼的編寫操作,具有較強(qiáng)的可操作性,便于讀者學(xué)習(xí)和理解,非常剛接觸Spark或?qū)park分布式計(jì)算的開發(fā)不熟悉的初學(xué)者。對(duì)于熟悉函數(shù)式開發(fā)或面向?qū)ο箝_發(fā),并有一定經(jīng)驗(yàn)的開發(fā)者。

spark大數(shù)據(jù)實(shí)例開發(fā)教程

內(nèi)容介紹

《spark大數(shù)據(jù)實(shí)例開發(fā)教程》中首先通過介紹Spark的生態(tài)系統(tǒng)和RDD編程模型,使讀者能夠快速的對(duì)Spark技術(shù)的生態(tài)環(huán)境以及對(duì)Spark的RDD編程模型有個(gè)非常直觀的了解。

首先介紹了Spark應(yīng)用的兩種部署模式;然后在應(yīng)用部署模式基礎(chǔ)上,開始Spark實(shí)戰(zhàn)的案例與解析,通過提供一個(gè)完整的基礎(chǔ)案例,使讀者了解一個(gè)Spark應(yīng)用的大致處理流程;接著對(duì)實(shí)戰(zhàn)中的重點(diǎn)部分,結(jié)合源碼分析、監(jiān)控日志分析等深入解析了Spark運(yùn)行機(jī)制、DAG圖等關(guān)鍵內(nèi)容;后給出Spark開發(fā)者常用的應(yīng)用程序構(gòu)建案例與分析,以及調(diào)試環(huán)境搭建的案例與應(yīng)用調(diào)試的案例。

spark大數(shù)據(jù)實(shí)例開發(fā)教程章節(jié)目錄

第1章Spark簡(jiǎn)介

1.1什么是Spark

1.2Spark生態(tài)圈

1.2.1伯克利數(shù)據(jù)分析協(xié)議棧

1.2.2Spark開源社區(qū)發(fā)展

1.3RDD編程模型

1.3.1RDD抽象概念

1.3.2RDD的操作

1.3.3RDD的依賴關(guān)系

1.3.4一個(gè)典型的DAG示意圖

第2章Spark RDD實(shí)踐案例與解析

2.1Spark應(yīng)用程序部署

2.1.1Spark應(yīng)用的基本概念

2.1.2應(yīng)用程序的部署方式

2.2RDD數(shù)據(jù)的輸入、處理、輸出的基本案例與解析

2.2.1集群環(huán)境的搭建

2.2.2交互式工具的啟動(dòng)

2.2.3文本數(shù)據(jù)的ETL案例實(shí)踐與解析

2.2.4文本數(shù)據(jù)的初步統(tǒng)計(jì)案例實(shí)踐與解析

2.2.5文本數(shù)據(jù)統(tǒng)計(jì)結(jié)果的持久化案例實(shí)踐與解析

2.2.6RDD的Lineage關(guān)系的案例與源碼解析

2.2.7RDD的持久化案例與解析

2.2.8RDD的構(gòu)建案例與解析

2.2.9分區(qū)數(shù)設(shè)置的案例與源碼解析

2.3RDD API的應(yīng)用案例與解析

2.3.1如何查找RDD API的隱式轉(zhuǎn)換

2.3.2RDD[T]的分區(qū)相關(guān)的API

2.3.3RDD[T]常用的聚合API

2.3.4DoubleRDDFunctions(self:RDD[Double])常用的API

2.3.5PairRDDFunctions[K,V]聚合相關(guān)的API

2.3.6RDD相互間操作的API

2.3.7PairRDDFunctions[K,V]間的相關(guān)API

2.3.8OrderedRDDFunctions[K,V,P:Product2K,V]常用的API

2.4Spark應(yīng)用程序構(gòu)建

2.4.1基于SBT構(gòu)建Spark應(yīng)用程序的實(shí)例

2.4.2基于IDEA構(gòu)建Spark應(yīng)用程序的實(shí)例

2.4.3Spark提交應(yīng)用的調(diào)試實(shí)例

2.5移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)分析案例與解析

2.5.1移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的準(zhǔn)備

2.5.2移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)分析與解析

2.6Spark RDD實(shí)踐中的常見問題與解答

第3章Spark SQL實(shí)踐案例與解析

3.1Spark SQL概述

3.2DataFrame處理的案例與解析

3.2.1DataFrame編程模型

3.2.2DataFrame基本操作案例與解析

3.2.3DataFrame與RDD之間的轉(zhuǎn)換案例與解析

3.2.4緩存表(列式存儲(chǔ))的案例與解析

3.2.5DataFrame API的應(yīng)用案例與分析

3.3Spark SQL處理各種數(shù)據(jù)源的案例與解析

3.3.1通用的加載/保存功能的案例與解析

3.3.2Parquet文件處理的案例與解析

3.3.3JSON數(shù)據(jù)集操作的案例與解析

3.3.4操作Hive表的案例與解析

3.3.5使用JDBC操作其他數(shù)據(jù)庫的案例與解析

3.3.6集成Hive數(shù)據(jù)倉庫的案例與解析

3.4基于Hive的人力資源系統(tǒng)數(shù)據(jù)處理案例與解析

3.4.1人力資源系統(tǒng)的數(shù)據(jù)庫與表的構(gòu)建

3.4.2人力資源系統(tǒng)的數(shù)據(jù)的加載

3.4.3人力資源系統(tǒng)的數(shù)據(jù)的查詢

第4章Spark Streaming實(shí)踐案例與解析

4.1Spark Streaming概述

4.2Spark Streaming基礎(chǔ)概念

4.3企業(yè)信息實(shí)時(shí)處理的案例與解析

4.3.1處理TCP數(shù)據(jù)源的案例與解析

4.3.2處理HDFS文件數(shù)據(jù)源的案例與解析

4.3.3處理Kafka數(shù)據(jù)源的準(zhǔn)備工作

4.3.4基于Receiver讀取Kafka數(shù)據(jù)的案例與解析

4.3.5直接讀?。oReceiver)Kafka數(shù)據(jù)的案例與解析

4.3.6處理Flume數(shù)據(jù)源的實(shí)踐準(zhǔn)備

4.3.7基于Flume風(fēng)格的推送數(shù)據(jù)案例與解析

4.3.8定制FlumeSink的拉取數(shù)據(jù)案例與解析

4.4性能調(diào)優(yōu)

4.4.1減少批處理的時(shí)間

4.4.2設(shè)置正確的批間隔

4.4.3內(nèi)存調(diào)優(yōu)

第5章Tachyon實(shí)踐案例與解析

5.1Tachyon概述

5.2重新編譯部署包

5.2.1重新編譯Tachyon的部署包

5.2.2重新編譯Spark的部署包

5.3Tachyon部署的案例與解析

5.3.1單機(jī)模式部署的案例與解析

5.3.2集群模式部署的案例與解析

5.3.3集群Master容錯(cuò)部署的案例與解析

5.4Tachyon配置的案例與解析

5.4.1底層存儲(chǔ)系統(tǒng)的配置案例與解析

5.4.2配置屬性與解析

5.5命令行接口的案例與解析

5.5.1命令行接口的說明

5.5.2命令行接口的案例實(shí)踐與解析

5.6同步底層文件系統(tǒng)的案例與解析

5.6.1同步HDFS底層文件系統(tǒng)的案例與解析

5.6.2同步本地底層文件系統(tǒng)的案例與解析

5.7基于Tachyon運(yùn)行的案例與解析

5.7.1基于Tachyon運(yùn)行Spark的案例與解析

5.7.2基于Tachyon運(yùn)行Hadoop MR的案例與解析

收起介紹展開介紹
  • 下載地址
spark大數(shù)據(jù)實(shí)例開發(fā)教程 王家林pdf掃描版

有問題? 點(diǎn)此報(bào)錯(cuò)

發(fā)表評(píng)論

0條評(píng)論

熱門推薦