大數(shù)據(jù)架構(gòu)詳解是一本大數(shù)據(jù)深度學(xué)習(xí)書籍,書本全名叫做大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí),由華為大數(shù)據(jù)服務(wù)首席規(guī)劃師朱潔和羅華霖兩人共同編著。本書內(nèi)容豐富翔實,主要圍繞著一個通用技術(shù)棧來組織章節(jié),主要聚焦大數(shù)據(jù)平臺的一些知識。作者詳細介紹了數(shù)據(jù)獲取(探針、爬蟲、日志采集等)、流處理(流式數(shù)據(jù)處理引擎、storm、spark streaming等)、批處理、機器學(xué)習(xí)(bsp并行計算模型、人工智能、機器學(xué)習(xí)等)、技術(shù)存儲(存儲硬件、存儲指標(biāo)、raid技術(shù))等各種技術(shù),從而幫助讀者更好的了解大數(shù)據(jù),歡迎免費下載閱讀。
內(nèi)容介紹
《大數(shù)據(jù)架構(gòu)詳解》從架構(gòu)、業(yè)務(wù)、技術(shù)三個維度深入淺出地介紹了大數(shù)據(jù)處理領(lǐng)域端到端的知識。主要內(nèi)容包括三部分:第一部分從數(shù)據(jù)的產(chǎn)生、采集、計算、存儲、消費端到端的角度介紹大數(shù)據(jù)技術(shù)的起源、發(fā)展、關(guān)鍵技術(shù)點和未來趨勢,結(jié)合生動的業(yè)界*新產(chǎn)品,以及學(xué)術(shù)界*新的研究方向和成果,讓深奧的技術(shù)淺顯易懂;第二部分從業(yè)務(wù)和技術(shù)角度介紹實際案例,讓讀者理解大數(shù)據(jù)的用途及技術(shù)的本質(zhì);第三部分介紹大數(shù)據(jù)技術(shù)不是孤立的,講解如何與前沿的云技術(shù)、深度學(xué)習(xí)、機器學(xué)習(xí)等相結(jié)合??偟膩碚f,本書圍繞一個通用技術(shù)棧來組織章節(jié),主要聚焦大數(shù)據(jù)平臺的一些知識。主要分為三部分。
第一部分:第1~3章,主要講述大數(shù)據(jù)的本質(zhì)、運營商大數(shù)據(jù)的架構(gòu)和一些基本的業(yè)務(wù)知識。
第1章:闡述大數(shù)據(jù)的本質(zhì)和面臨的挑戰(zhàn)。
第2章:概述大數(shù)據(jù)架構(gòu)及背后的驅(qū)動因素,以及未來發(fā)展的趨勢。
第3章:介紹運營商領(lǐng)域的業(yè)務(wù),讓讀者對大數(shù)據(jù)能做什么有一個直觀的感受。
第二部分:第4~11章,圍繞大數(shù)據(jù)平臺技術(shù)棧來闡述數(shù)據(jù)獲取、處理、分析和應(yīng)用平臺涉及的技術(shù)。
第4章:介紹數(shù)據(jù)獲取涉及的探針、爬蟲、日志采集、數(shù)據(jù)分發(fā)中間件等技術(shù)。
第5章:介紹流式數(shù)據(jù)處理引擎、CEP、流式應(yīng)用。
第6章:介紹交互式分析技術(shù)、MPP DB、熱門的SQL on Hadoop技術(shù)。
第7章:介紹批處理技術(shù)、Spark,以及大規(guī)模機器學(xué)習(xí)的BSP技術(shù)等。
第8章:探討機器學(xué)習(xí)、深度學(xué)習(xí)相關(guān)技術(shù)。
第9章:統(tǒng)一資源管理是趨勢,本章介紹資源管理的核心技術(shù)和算法。
第10章:存儲是基礎(chǔ),本章介紹存儲的關(guān)鍵技術(shù)。
第11章:探討大數(shù)據(jù)技術(shù)怎么云化,以及關(guān)鍵技術(shù)是什么。
第三部分:第12章,技術(shù)和文化息息相關(guān),技術(shù)影響文化,文化影響技術(shù)。
第12章:介紹大數(shù)據(jù)開發(fā)文化、開源、DevOps,探討理念和文化對技術(shù)的沖擊。
章節(jié)目錄
第一部分 大數(shù)據(jù)的本質(zhì)
第1章 大數(shù)據(jù)是什么 2
1.1 大數(shù)據(jù)導(dǎo)論 2
1.1.1 大數(shù)據(jù)簡史 2
1.1.2 大數(shù)據(jù)現(xiàn)狀 3
1.1.3 大數(shù)據(jù)與BI 3
1.2 企業(yè)數(shù)據(jù)資產(chǎn) 4
1.3 大數(shù)據(jù)挑戰(zhàn) 5
1.3.1 成本挑戰(zhàn) 6
1.3.2 實時性挑戰(zhàn) 6
1.3.3 安全挑戰(zhàn) 6
1.4 小結(jié) 6
第2章 運營商大數(shù)據(jù)架構(gòu) 7
2.1 架構(gòu)驅(qū)動的因素 7
2.2 大數(shù)據(jù)平臺架構(gòu) 7
2.3 平臺發(fā)展趨勢 8
2.4 小結(jié) 8
第3章 運營商大數(shù)據(jù)業(yè)務(wù) 9
3.1 運營商常見的大數(shù)據(jù)業(yè)務(wù) 9
3.1.1 SQM(運維質(zhì)量管理) 9
3.1.2 CSE(客戶體驗提升) 9
3.1.3 MSS(市場運維支撐) 10
3.1.4 DMP(數(shù)據(jù)管理平臺) 10
3.2 小結(jié) 11
第二部分 大數(shù)據(jù)技術(shù)
第4章 數(shù)據(jù)獲取 14
4.1 數(shù)據(jù)分類 14
4.2 數(shù)據(jù)獲取組件 14
4.3 探針 15
4.3.1 探針原理 15
4.3.2 探針的關(guān)鍵能力 16
4.4 網(wǎng)頁采集 26
4.4.1 網(wǎng)絡(luò)爬蟲 26
4.4.2 簡單爬蟲Python代碼示例 32
4.5 日志收集 33
4.5.1 Flume 33
4.5.2 其他日志收集組件 47
4.6 數(shù)據(jù)分發(fā)中間件 47
4.6.1 數(shù)據(jù)分發(fā)中間件的作用 47
4.6.2 Kafka架構(gòu)和原理 47
4.7 小結(jié) 82
第5章 流處理 83
5.1 算子 83
5.2 流的概念 83
5.3 流的應(yīng)用場景 84
5.3.1 金融領(lǐng)域 84
5.3.2 電信領(lǐng)域 85
5.4 業(yè)界兩種典型的流引擎 85
5.4.1 Storm 85
5.4.2 Spark Streaming 89
5.4.3 融合框架 102
5.5 CEP 108
5.5.1 CEP是什么 108
5.5.2 CEP的架構(gòu) 109
5.5.3 Esper 110
5.6 實時結(jié)合機器學(xué)習(xí) 110
5.6.1 Eagle的特點 111
5.6.2 Eagle概覽 111
5.7 小結(jié) 116
第6章 交互式分析 117
6.1 交互式分析的概念 117
6.2 MPP DB技術(shù) 118
6.2.1 MPP的概念 118
6.2.2 典型的MPP數(shù)據(jù)庫 121
6.2.3 MPP DB調(diào)優(yōu)實戰(zhàn) 131
6.2.4 MPP DB適用場景 162
6.3 SQL on Hadoop 163
6.3.1 Hive 163
6.3.2 Phoenix 165
6.3.3 Impala 166
6.4 大數(shù)據(jù)倉庫 167
6.4.1 數(shù)據(jù)倉庫的概念 167
6.4.2 OLTP/OLAP對比 168
6.4.3 大數(shù)據(jù)場景下的同與不同 168
6.4.4 查詢引擎 169
6.4.5 存儲引擎 170
6.5 小結(jié) 171
第7章 批處理技術(shù) 172
7.1 批處理技術(shù)的概念 172
7.2 MPP DB技術(shù) 172
7.3 MapReduce編程框架 173
7.3.1 MapReduce起源 173
7.3.2 MapReduce原理 173
7.3.3 Shuffle 174
7.3.4 性能差的主要原因 177
7.4 Spark架構(gòu)和原理 177
7.4.1 Spark的起源和特點 177
7.4.2 Spark的核心概念 178
7.5 BSP框架 217
7.5.1 什么是BSP模型 217
7.5.2 并行模型介紹 218
7.5.3 BSP模型基本原理 220
7.5.4 BSP模型的特點 222
7.5.5 BSP模型的評價 222
7.5.6 BSP與MapReduce對比 222
7.5.7 BSP模型的實現(xiàn) 223
7.5.8 Apache Hama簡介 223
7.6 批處理關(guān)鍵技術(shù) 227
7.6.1 CodeGen 227
7.6.2 CPU親和技術(shù) 228
7.7 小結(jié) 229
第8章 機器學(xué)習(xí)和數(shù)據(jù)挖掘 230
8.1 機器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別 230
8.2 典型的數(shù)據(jù)挖掘和機器學(xué)習(xí)過程 231
8.3 機器學(xué)習(xí)概覽 232
8.3.1 學(xué)習(xí)方式 232
8.3.2 算法類似性 233
8.4 機器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例 235
8.4.1 尿布和啤酒的故事 235
8.4.2 決策樹用于電信領(lǐng)域故障快速定位 236
8.4.3 圖像識別領(lǐng)域 236
8.4.4 自然語言識別 238
8.5 交互式分析 239
8.6 深度學(xué)習(xí) 240
8.6.1 深度學(xué)習(xí)概述 240
8.6.2 機器學(xué)習(xí)的背景 241
8.6.3 人腦視覺機理 242
8.6.4 關(guān)于特征 244
8.6.5 需要有多少個特征 245
8.6.6 深度學(xué)習(xí)的基本思想 246
8.6.7 淺層學(xué)習(xí)和深度學(xué)習(xí) 246
8.6.8 深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò) 247
8.6.9 深度學(xué)習(xí)的訓(xùn)練過程 248
8.6.10 深度學(xué)習(xí)的框架 248
8.6.11 深度學(xué)習(xí)與GPU 255
8.6.12 深度學(xué)習(xí)小結(jié)與展望 256
8.7 小結(jié) 257
第9章 資源管理 258
9.1 資源管理的基本概念 258
9.1.1 資源調(diào)度的目標(biāo)和價值 258
9.1.2 資源調(diào)度的使用限制及難點 258
9.2 Hadoop領(lǐng)域的資源調(diào)度框架 259
9.2.1 YARN 259
9.2.2 Borg 260
9.2.3 Omega 262
9.2.4 本節(jié)小結(jié) 263
9.3 資源分配算法 263
9.3.1 算法的作用 263
9.3.2 幾種調(diào)度算法分析 263
9.4 數(shù)據(jù)中心統(tǒng)一資源調(diào)度 271
9.4.1 Mesos+Marathon架構(gòu)和原理 271
9.4.2 Mesos+Marathon小結(jié) 283
9.5 多租戶技術(shù) 284
9.5.1 多租戶概念 284
9.5.2 多租戶方案 284
9.6 基于應(yīng)用描述的智能調(diào)度 287
9.7 Apache Mesos架構(gòu)和原理 288
9.7.1 Apache Mesos背景 288
9.7.2 Apache Mesos總體架構(gòu) 288
9.7.3 Apache Mesos工作原理 290
9.7.4 Apache Mesos關(guān)鍵技術(shù) 295
9.7.5 Mesos與YARN比較 304
9.8 小結(jié) 305
第10章 存儲是基礎(chǔ) 306
10.1 分久必合,合久必分 306
10.2 存儲硬件的發(fā)展 306
10.2.1 機械硬盤的工作原理 306
10.2.2 SSD的原理 307
10.2.3 3DXPoint 309
10.2.4 硬件發(fā)展小結(jié) 309
10.3 存儲關(guān)鍵指標(biāo) 309
10.4 RAID技術(shù) 309
10.5 存儲接口 310
10.5.1 文件接口 311
10.5.2 裸設(shè)備 311
10.5.3 對象接口 312
10.5.4 塊接口 316
10.5.5 融合是趨勢 328
10.6 存儲加速技術(shù) 328
10.6.1 數(shù)據(jù)組織技術(shù) 328
10.6.2 緩存技術(shù) 335
10.7 小結(jié) 336
第11章 大數(shù)據(jù)云化 337
11.1 云計算定義 337
11.2 應(yīng)用上云 337
11.2.1 Cloud Native概念 338
11.2.2 微服務(wù)架構(gòu) 338
11.2.3 Docker配合微服務(wù)架構(gòu) 342
11.2.4 應(yīng)用上云小結(jié) 348
11.3 大數(shù)據(jù)上云 348
11.3.1 大數(shù)據(jù)云服務(wù)的兩種模式 348
11.3.2 集群模式AWSEMR 349
11.3.3 服務(wù)模式Azure Data Lake Analytics 352
11.4 小結(jié) 354
第三部分 大數(shù)據(jù)文化
第12章 大數(shù)據(jù)技術(shù)開發(fā)文化 356
12.1 開源文化 356
12.2 DevOps理念 356
12.2.1 Development和Operations的組合 357
12.2.2 對應(yīng)用程序發(fā)布的影響 357
12.2.3 遇到的問題 358
12.2.4 協(xié)調(diào)人 358
12.2.5 成功的關(guān)鍵 359
12.3 速度遠比你想的重要 35912.4 小結(jié) 361
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀
- 下載地址
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 有柿電腦版 v11.5.684.06M / 簡體中文
- 得間免費小說電腦版 v5.2.7.172.56M / 簡體中文
- 網(wǎng)易新聞電腦版 v112.697.63M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 吉利博瑞用戶手冊 pdf高清版57.89M / 簡體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文
- 本草綱目 5.34M / 簡體中文
- docker入門實戰(zhàn) pdf完整版1.38M / 簡體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡體中文