Spark最佳實(shí)踐是一本Spark的戰(zhàn)指南,由騰訊著名研發(fā)者陳歡和林世飛共同編著,全書基于真實(shí)數(shù)據(jù),用案例分析全面解讀大數(shù)據(jù)應(yīng)用設(shè)計(jì),采用了由淺入深的寫作手法,前面主要講解了Spark的部署、工作機(jī)制和內(nèi)核,后又通過實(shí)戰(zhàn)項(xiàng)目來介紹Spark SQL、Spark streaming 功能模塊,一步步的教你如何快速掌握使用Spark,并且本書還附有大量的實(shí)戰(zhàn)問題,非常大數(shù)據(jù)開發(fā)和運(yùn)維人員下載學(xué)習(xí)參考。
內(nèi)容介紹
Spark最佳實(shí)踐全書共分8章。前4章介紹Spark的部署、工作機(jī)制和內(nèi)核,全書的重點(diǎn)在第5章到第8章,每章不但深入淺出的介紹Spark的一個(gè)功能模塊,而且還包含了實(shí)戰(zhàn)項(xiàng)目。后4章分別通過實(shí)戰(zhàn)項(xiàng)目介紹SparkSQL、SparkStreaming、SparkGraphX和SparkMLib功能模塊。此外,本書詳細(xì)介紹了常見的實(shí)戰(zhàn)問題,比如大數(shù)據(jù)環(huán)境下的配置設(shè)置、程序調(diào)優(yōu)等。本書附帶的一鍵安裝腳本,更能為初學(xué)者提供很大幫助。
作者簡(jiǎn)介
陳歡,騰訊杰出程序員,15年編碼經(jīng)驗(yàn),曾任職網(wǎng)絡(luò)安全、互聯(lián)網(wǎng)金融等部門,親手從零建設(shè)了財(cái)付通業(yè)務(wù)的Spark集群,并使之同時(shí)支持SQL、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)等多種數(shù)據(jù)計(jì)算場(chǎng)景。他目前就職于騰訊社交與效果廣告部,從事大數(shù)據(jù)分析工作。
林世飛,騰訊杰出研究員,2005年加入騰訊,先后在無線產(chǎn)品、安全中心、搜索平臺(tái)、開放平臺(tái)、社交與效果廣告部等部門從事開發(fā)和團(tuán)隊(duì)管理工作。他對(duì)網(wǎng)絡(luò)安全、搜索引擎、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)有一定了解,熱衷知識(shí)傳播和分享,曾獲騰訊學(xué)院2009年年度杰出講師。目前,他就職于社交與效果廣告部,負(fù)責(zé)廣告系統(tǒng)相關(guān)的研發(fā)工作。
Spark最佳實(shí)踐章節(jié)目錄
第1 章 Spark 與大數(shù)據(jù) 1 1.1 大數(shù)據(jù)的發(fā)展及現(xiàn)狀 1 1.1.1 大數(shù)據(jù)時(shí)代所面臨的問題 1 1.1.2 谷歌的大數(shù)據(jù)解決方案 2 1.1.3 Hadoop 生態(tài)系統(tǒng) 3 1.2 Spark 應(yīng)時(shí)而生 4 1.2.1 Spark 的起源 4 1.2.2 Spark 的特點(diǎn) 5 1.2.3 Spark 的未來發(fā)展 6 第2 章 Spark 基礎(chǔ) 8 2.1 Spark 本地單機(jī)模式體驗(yàn) 8 2.1.1 安裝虛擬機(jī) 8 2.1.2 安裝JDK 19 2.1.3 下載Spark 預(yù)編譯包 21 2.1.4 本地體驗(yàn)Spark 22 2.2 高可用Spark 分布式集群部署 25 2.2.1 集群總覽 26 2.2.2 集群機(jī)器的型號(hào)選擇 28 2.2.3 初始化集群機(jī)器環(huán)境 29 2.2.4 部署ZooKeeper 集群 33 2.2.5 編譯Spark 35 2.2.6 部署Spark Standalone 集群 37 2.2.7 高可用Hadoop 集群 40 2.2.8 讓Spark 運(yùn)行在YARN 上 40 2.2.9 一鍵部署高可用Hadoop + Spark 集群 42 2.3 Spark 編程指南 43 2.3.1 交互式編程 43 2.3.2 RDD 創(chuàng)建 44 2.3.3 RDD 操作 47 2.3.4 使用其他語言開發(fā)Spark 程序 54 2.4 打包和提交 54 2.4.1 編譯、鏈接、打包 54 2.4.2 提交 56 第3 章 Spark 工作機(jī)制 58 3.1 調(diào)度管理 58 3.1.1 集群概述及名詞解釋 58 3.1.2 Spark 程序之間的調(diào)度 60 3.1.3 Spark 程序內(nèi)部的調(diào)度 63 3.2 內(nèi)存管理 65 3.2.1 RDD 持久化 65 3.2.2 共享變量 66 3.3 容錯(cuò)機(jī)制 67 3.3.1 容錯(cuò)體系概述 67 3.3.2 Master 節(jié)點(diǎn)失效 68 3.3.3 Slave 節(jié)點(diǎn)失效 69 3.4 監(jiān)控管理 69 3.4.1 Web 界面 69 3.4.2 REST API 72 3.4.3 Metrics 指標(biāo)體系 73 3.4.4 其他監(jiān)控工具 73 3.5 Spark 程序配置管理 73 3.5.1 Spark 程序配置加載過程 74 3.5.2 環(huán)境變量配置 74 3.5.3 Spark 屬性項(xiàng)配置 74 3.5.4 查看當(dāng)前的配置 76 3.5.5 配置Spark 日志 76 第4 章 Spark 內(nèi)核講解 77 4.1 Spark 核心數(shù)據(jù)結(jié)構(gòu)RDD 77 4.1.1 RDD 的定義 78 4.1.2 RDD 的Transformation 80 4.1.3 RDD 的Action 82 4.1.4 Shuffle 83 4.2 SparkContext 84 4.2.1 SparkConf 配置 84 4.2.2 初始化過程 85 4.2.3 其他功能接口 87 4.3 DAG 調(diào)度 87 4.3.1 DAGScheduler 87 4.3.2 TaskScheduler 90 第5 章 Spark SQL 與數(shù)據(jù)倉(cāng)庫(kù) 92 5.1 Spark SQL 基礎(chǔ) 93 5.1.1 分布式SQL 引擎 93 5.1.2 支持的SQL 語法 97 5.1.3 支持的數(shù)據(jù)類型 98 5.1.4 DataFrame 99 5.1.5 DataFrame 數(shù)據(jù)源 103 5.1.6 性能調(diào)優(yōu) 104 5.2 Spark SQL 原理和運(yùn)行機(jī)制 104 5.2.1 Spark SQL 整體架構(gòu) 105 5.2.2 Catalyst 執(zhí)行優(yōu)化器 105 5.3 應(yīng)用場(chǎng)景:基于淘寶數(shù)據(jù)建立電商 數(shù)據(jù)倉(cāng)庫(kù) 110 5.3.1 電商數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景 111 5.3.2 數(shù)據(jù)準(zhǔn)備和表設(shè)計(jì) 111 5.3.3 用Spark SQL 來完成日常運(yùn)營(yíng) 數(shù)據(jù)分析 115 5.3.4 Spark SQL 在大規(guī)模數(shù)據(jù)下的 性能表現(xiàn) 120 第6 章 Spark 流式計(jì)算 122 6.1 Spark Streaming 基礎(chǔ)知識(shí) 123 6.1.1 入門簡(jiǎn)單示例 123 6.1.2 基本概念 124 6.1.3 高級(jí)操作 129 6.2 深入理解Spark Streaming 132 6.2.1 DStream 的兩類操作 132 6.2.2 容錯(cuò)處理 134 6.2.3 性能調(diào)優(yōu) 136 6.2.4 與Storm 的對(duì)比 137 6.3 應(yīng)用場(chǎng)景:一個(gè)類似百度統(tǒng)計(jì)的流式 實(shí)時(shí)系統(tǒng) 139 6.3.1 Web log 實(shí)時(shí)統(tǒng)計(jì)場(chǎng)景 139 6.3.2 日志實(shí)時(shí)采集 140 6.3.3 流式分析系統(tǒng)實(shí)現(xiàn) 140 第7 章 Spark 圖計(jì)算 149 7.1 什么是圖計(jì)算 149 7.1.1 圖的基本概念 149 7.1.2 圖計(jì)算的應(yīng)用 150 7.2 Spark GraphX 簡(jiǎn)介 151 7.2.1 GraphX 實(shí)現(xiàn) 151 7.2.2 GraphX 常用API 介紹 152 7.3 應(yīng)用場(chǎng)景:基于新浪微博數(shù)據(jù)的社交 網(wǎng)絡(luò)分析 153 7.3.1 社交網(wǎng)絡(luò)分析的主要應(yīng)用 153 7.3.2 社區(qū)發(fā)現(xiàn)算法簡(jiǎn)介 154 7.3.3 用GraphX 實(shí)現(xiàn)Louvain 算法 156 7.3.4 小試牛刀:誰是你的閨蜜 162 7.3.5 真實(shí)的場(chǎng)景:新浪微博關(guān)系 分析 164 第8 章 Spark MLlib 169 8.1 機(jī)器學(xué)習(xí)簡(jiǎn)介 169 8.1.1 什么是機(jī)器學(xué)習(xí) 169 8.1.2 機(jī)器學(xué)習(xí)示例 171 8.1.3 機(jī)器學(xué)習(xí)的基本方法 172 8.1.4 機(jī)器學(xué)習(xí)的常見技巧 173 8.1.5 機(jī)器學(xué)習(xí)參考資料 174 8.2 MLlib 庫(kù)簡(jiǎn)介 174 8.2.1 基礎(chǔ)數(shù)據(jù)類型 174 8.2.2 主要的庫(kù) 175 8.2.3 附帶的示例程序 176 8.3 應(yīng)用場(chǎng)景:搜索廣告點(diǎn)擊率 預(yù)估系統(tǒng) 178 8.3.1 應(yīng)用場(chǎng)景 178 8.3.2 邏輯回歸 179 8.3.3 學(xué)習(xí)算法 181 8.3.4 模型評(píng)估 184 8.3.5 數(shù)據(jù)準(zhǔn)備 186 8.3.6 模型訓(xùn)練 187 8.3.7 模型調(diào)優(yōu) 195 附錄 Scala 語言參考 197
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- 南方Plus電腦版 v11.8.027.22M / 簡(jiǎn)體中文
- 有柿電腦版 v11.5.684.06M / 簡(jiǎn)體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡(jiǎn)體中文
- 開源閱讀電腦版 v3.2517.96M / 簡(jiǎn)體中文
- cnki全球?qū)W術(shù)快報(bào)電腦版 v0.2.3495.79M / 簡(jiǎn)體中文
- 未公開的Oracle數(shù)據(jù)庫(kù)秘密 迪貝斯pdf掃描版34.69M / 簡(jiǎn)體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡(jiǎn)體中文
- 本草綱目 5.34M / 簡(jiǎn)體中文
- Scala程序設(shè)計(jì)第二版 pdf高清完整版15.83M / 簡(jiǎn)體中文
- HotSpot實(shí)戰(zhàn)(陳濤著) 中文pdf掃描版82M / 簡(jiǎn)體中文