首 頁
手機(jī)版

尋路大數(shù)據(jù) 馬諾切里pdf掃描版

尋路大數(shù)據(jù)是Google大數(shù)據(jù)專家邁克爾·馬諾切里的最新力作,本書從大數(shù)據(jù)系統(tǒng)的成功應(yīng)用開始介紹,之后陸續(xù)對 NoSQL、分布式計算和CAP 理論進(jìn)行了講解。在介紹使用 Hadoop 和 Hive 分析大數(shù)據(jù)之后,又覆蓋了使用 BigQuery 進(jìn)行實時分析的相關(guān)內(nèi)容。之后還包括了 MapReduce 流水線、Pig 和Cascading、使用 Mahout 進(jìn)行機(jī)器學(xué)習(xí)等高級課題。

在書的結(jié)尾,讀者會看到將Python 和 R 整合到大數(shù)據(jù)工具鏈中的實際案例。尋路大數(shù)據(jù)大部分章節(jié)都包含了很多例子以幫助讀者學(xué)習(xí)和使用相關(guān)的大數(shù)據(jù)工具。如果你想要一本對大數(shù)據(jù)分析有一個全面了解的書籍,本書絕對是不二之選。

尋路大數(shù)據(jù)

內(nèi)容介紹

《尋路大數(shù)據(jù)》作者結(jié)合自己在Google 大數(shù)據(jù)平臺工作的豐富經(jīng)驗,闡述了數(shù)據(jù)技術(shù)的方方面面。從數(shù)據(jù)收集、共享到數(shù)據(jù)存儲,從分布式數(shù)據(jù)平臺、分析型數(shù)據(jù)庫到數(shù)據(jù)可視化,從數(shù)據(jù)工作流構(gòu)建到大規(guī)模數(shù)據(jù)分析,作者不僅進(jìn)行了全面而深入的介紹,更覆蓋了目前流行的各種數(shù)據(jù)技術(shù)與工具,同時對技術(shù)選型提出了指導(dǎo)性的建議。最后,作者對數(shù)據(jù)挑戰(zhàn)的非技術(shù)因素進(jìn)行了深刻的分析,并對數(shù)據(jù)技術(shù)的發(fā)展趨勢進(jìn)行了展望,引人深思。本書對企業(yè)管理者、技術(shù)經(jīng)理、數(shù)據(jù)分析師、數(shù)據(jù)應(yīng)用開發(fā)人員和相關(guān)從業(yè)者都有很好的參考價值。決策者可以從中看到技術(shù)趨勢,把握時代發(fā)展脈搏;數(shù)據(jù)分析人員可以看到經(jīng)驗的總結(jié)和工具的應(yīng)用;其他從業(yè)者可以從中了解數(shù)據(jù)技術(shù)所涉及的各個方面。

章節(jié)目錄

第1 部分 大數(shù)據(jù)時代指引 1

第1 章 數(shù)據(jù)成功四原則 3

1.1 當(dāng)數(shù)據(jù)成為一件“大”事 3

1.2 數(shù)據(jù)和單臺服務(wù)器 4

1.3 大數(shù)據(jù)的權(quán)衡 5

1.3.1 構(gòu)建可(限)擴(kuò)展的解決方案 6

1.3.2 構(gòu)建可(在互聯(lián)網(wǎng)上)共享數(shù)據(jù)的系統(tǒng) 7

1.3.3 構(gòu)建解決方案,而非基礎(chǔ)設(shè)施 8

1.3.4 關(guān)注從數(shù)據(jù)中解放價值 8

1.4 大數(shù)據(jù)流水線剖析 9

1.5 終極數(shù)據(jù)庫 10

1.6 總結(jié) 10

第2 部分 收集和共享海量數(shù)據(jù) 13

第2 章 托管和共享TB 級原始數(shù)據(jù) 15

2.1 文件之殤 16

2.1.1 共享大量文件的挑戰(zhàn) 16

2.2 存儲:基礎(chǔ)設(shè)施即服務(wù) 17

2.2.1 網(wǎng)絡(luò)很慢 18

2.3 選擇合適的數(shù)據(jù)格式 18

2.3.1 XML :數(shù)據(jù),描述你自己 20

2.3.2 JSON :程序員的選擇 21

2.4 字符編碼 22

2.4.1 文件轉(zhuǎn)換 24

XXII 目錄

2.5 移動中的數(shù)據(jù):數(shù)據(jù)序列化格式 25

2.5.1 Apache Thrift 和Protocol Buffers 26

2.6 總結(jié) 27

第3 章 構(gòu)建基于NoSQL 的Web 應(yīng)用采集眾包數(shù)據(jù) 29

3.1 關(guān)系型數(shù)據(jù)庫:命令及控制 30

3.1.1 關(guān)系數(shù)據(jù)庫的ACID 測試 32

3.2 當(dāng)關(guān)系型數(shù)據(jù)庫遇上互聯(lián)網(wǎng) 33

3.2.1 CAP 原理與BASE 34

3.3 非關(guān)系型數(shù)據(jù)庫的模式 36

3.3.1 鍵- 值數(shù)據(jù)庫 36

3.3.2 文檔存儲 38

3.4 為寫入性能優(yōu)化:Redis 40

3.5 在多個Redis 實例上分片 43

3.5.1 使用Twemproxy 自動分區(qū) 44

3.5.2 Redis 的替代選項 46

3.6 NewSQL :Codd 歸來 46

3.7 總結(jié) 47

第4 章 解決數(shù)據(jù)孤島問題的策略 49

4.1 堆滿術(shù)語的倉庫 49

4.1.1 實踐中的問題 51

4.1.2 數(shù)據(jù)合規(guī)與安全規(guī)劃 52

4.1.3 走進(jìn)數(shù)據(jù)倉庫 53

4.1.4 數(shù)據(jù)倉庫的口訣:抽取、轉(zhuǎn)換和加載 54

4.2 Hadoop :數(shù)據(jù)倉庫中的大象 55

4.3 數(shù)據(jù)孤島也可能是個優(yōu)點 55

4.3.1 專注于數(shù)據(jù)問題,而不是技術(shù) 56

4.3.2 鼓勵員工提出他們自己的問題 57

4.3.3 投資溝通數(shù)據(jù)孤島的技術(shù) 57

4.4 融合:數(shù)據(jù)孤島的終結(jié) 58

目錄XXIII

4.4.1 Luhn 的商業(yè)智能系統(tǒng)是否能成為現(xiàn)實 59

4.5 總結(jié) 59

第3 部分 數(shù)據(jù)探究 61

第5 章 使用Hadoop、Hive 和Shark 探索大規(guī)模數(shù)據(jù)集 63

5.1 什么是數(shù)據(jù)倉庫 64

5.2 Apache Hive :在Hadoop 上進(jìn)行交互式查詢 66

5.2.1 Hive 用例 66

5.2.2 Hive 實戰(zhàn) 67

5.2.3 在Hive 中使用其他數(shù)據(jù)源 71

5.3 Shark :以內(nèi)存的速度進(jìn)行查詢 72

5.4 云中的數(shù)據(jù)倉庫 73

5.5 總結(jié) 74

第6 章 使用Google BigQuery 構(gòu)建數(shù)據(jù)信息中心 77

6.1 分析型數(shù)據(jù)庫 78

6.2 Dremel :均貧富 79

6.2.1 Dremel 與MapReduce 的不同之處 80

6.3 BigQuery :數(shù)據(jù)分析即服務(wù) 81

6.3.1 BigQuery 的查詢語言 82

6.4 建造自己的大數(shù)據(jù)信息面板 83

6.4.1 授權(quán)訪問BigQuery API 84

6.4.2 運行查詢并獲取結(jié)果 87

6.4.3 緩存查詢結(jié)果 88

6.4.4 添加可視化圖形 89

6.5 分析型查詢引擎的未來 91

6.6 總結(jié) 91

第7 章 探索大數(shù)據(jù)的可視化策略 93

7.1 警世良言:將數(shù)據(jù)翻譯成故事 94

7.2 人類尺度 VS 機(jī)器尺度 97

XXIV 目錄

7.2.1 交互性 97

7.3 開發(fā)交互式數(shù)據(jù)應(yīng)用 98

7.3.1 使用R 和ggplot2 實現(xiàn)交互式可視化 98

7.3.2 matplotlib: Python 的2D 圖形庫 100

7.3.3 D3.js :用于Web 的交互式可視化庫 100

7.4 總結(jié) 104

第4 部分 構(gòu)建數(shù)據(jù)流水線 107

第8 章 整合:MapReduce 數(shù)據(jù)流水線 109

8.1 數(shù)據(jù)流水線是什么 109

8.1.1 正確的工具 110

8.2 使用Hadoop Streaming 搭建數(shù)據(jù)流水線 111

8.2.1 MapReduce 和數(shù)據(jù)轉(zhuǎn)換 111

8.2.2 最簡單的流水線:stdin 到stdout 113

8.3 單步MapReduce 變換 115

8.3.1 從原始NVSS 數(shù)據(jù)中抽取相關(guān)信息:map 階段 116

8.3.2 合計每月出生數(shù):reducer 階段 117

8.3.3 在本地測試MapReduce 流水線 118

8.3.4 在Hadoop 集群上運行我們的MapReduce 作業(yè) 119

8.4 降低復(fù)雜性:Hadoop 上Python 的MapReduce 框架 120

8.4.1 使用mrjob 重寫Hadoop Streaming 示例 121

8.4.2 建造一個多步流水線 122

8.4.3 在Elastic MapReduce 上運行mrjob 腳本 124

8.4.4 其他基于Python 的MapReduce 框架 125

8.5 總結(jié) 125

第9 章 使用Pig 和Cascading 構(gòu)建數(shù)據(jù)轉(zhuǎn)換工作流 127

9.1 大規(guī)模數(shù)據(jù)工作流實戰(zhàn) 128

9.2 多步MapReduce 轉(zhuǎn)換真復(fù)雜 128

9.2.1 Apache Pig :拒絕復(fù)雜 129

目錄XXV

9.2.2 使用交互式Grunt shell 運行Pig 130

9.2.3 過濾和優(yōu)化數(shù)據(jù)工作流 132

9.2.4 以批處理模式運行Pig 腳本 132

9.3 Cascading :構(gòu)建健壯的數(shù)據(jù)工作流應(yīng)用 133

9.3.1 以source 和sink 的方式思考 134

9.3.2 構(gòu)建Cascading 應(yīng)用 135

9.3.3 創(chuàng)建一個Cascade :一個簡單的JOIN 例子 136

9.3.4 在Hadoop 集群上部署Cascading 應(yīng)用 138

9.4 何時選擇Pig 或Cascading 139

9.5 總結(jié) 140

第5 部分 基于大規(guī)模數(shù)據(jù)集的機(jī)器學(xué)習(xí) 141

第10 章 使用Mahout 構(gòu)建數(shù)據(jù)分類系統(tǒng) 143

10.1 機(jī)器能否預(yù)測未來 144

10.2 機(jī)器學(xué)習(xí)的挑戰(zhàn) 144

10.2.1 貝葉斯分類 146

10.2.2 聚類 146

10.2.3 推薦引擎 148

10.3 Apache Mahout :可伸縮的機(jī)器學(xué)習(xí)工具 148

10.3.1 使用Mahout 進(jìn)行文本分類 149

10.4 MLbase :分布式機(jī)器學(xué)習(xí)框架 152

10.5 總結(jié) 152

第6 部分 基于大規(guī)模數(shù)據(jù)集的統(tǒng)計分析 155

第11 章 使用R 語言處理大數(shù)據(jù)集 157

11.1 統(tǒng)計學(xué)為什么性感 158

11.1.1 R 處理大型數(shù)據(jù)集的局限性 159

11.1.2 R 的數(shù)據(jù)幀和矩陣 161

XXVI 目錄

11.2 處理大數(shù)據(jù)集的策略 162

11.2.1 大矩陣處理:bigmemory 和biganalytics 162

11.2.2 ff: 使用大于內(nèi)存的數(shù)據(jù)幀 164

11.2.3 biglm :大規(guī)模數(shù)據(jù)集的線性回歸 165

11.2.4 RHadoop: 使用R 訪問Apache Hadoop 166

11.3 總結(jié) 168

第12 章 使用Python 和Pandas 構(gòu)建分析工作流 171

12.1 數(shù)據(jù)樂園中自在的蟒蛇――Python 172

12.1.1 為統(tǒng)計性計算選擇一門語言 172

12.1.2 擴(kuò)展現(xiàn)有代碼 173

12.1.3 工具和測試 174

12.2 用于數(shù)據(jù)處理的Python 庫 174

12.2.1 NumPy 175

12.2.2 SciPy :Python 的科學(xué)計算庫 176

12.2.3 數(shù)據(jù)分析庫Pandas 178

12.3 構(gòu)建更復(fù)雜的工作流 182

12.3.1 處理損壞或丟失的記錄 184

12.4 iPython :科學(xué)計算工具鏈的最后一環(huán) 185

12.4.1 在集群上并行執(zhí)行iPython 186

12.5 總結(jié) 190

第7 部分 展望未來 191

第13 章 何時選擇自制、購買或外包 193

13.1 功能重合的解決方案 193

13.2 理解你的數(shù)據(jù)問題 195

13.3 自制還是購買問題的參考手冊 197

13.3.1 你已經(jīng)對哪些技術(shù)有所投入 197

13.3.2 從小處著手 198

13.3.3 規(guī)劃時考慮可擴(kuò)展性 198

目錄XXVII

13.4 私人數(shù)據(jù)中心 199

13.5 了解開源的成本 201

13.6 一切皆服務(wù) 202

13.7 總結(jié) 202

第14 章 未來:數(shù)據(jù)科技的幾個趨勢 205

14.1 Hadoop :攪局者與被攪局者 206

14.2 一切皆在云中 208

14.3 數(shù)據(jù)科學(xué)家的興衰 209

14.4 融合:終極數(shù)據(jù)庫 212

14.5 文化融合 213

14.6 總結(jié) 214

使用說明

1、下載并解壓,得出pdf文件

2、如果打不開本文件,請務(wù)必下載pdf閱讀器

3、安裝后,在打開解壓得出的pdf文件

4、雙擊進(jìn)行閱讀

收起介紹展開介紹
  • 下載地址
尋路大數(shù)據(jù) 馬諾切里pdf掃描版

有問題? 點此報錯

發(fā)表評論

0條評論