Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)是一本Hadoop數(shù)據(jù)處理技術(shù)指導(dǎo)手冊(cè),由范東來(lái)編著。本書(shū)主要介紹Hadoop技術(shù)的相關(guān)知識(shí),不但詳細(xì)介紹了Hadoop、MapReduce、HDFS、Hive和Sqoop,還深入探討了Hadoop的運(yùn)維和調(diào)優(yōu),并包含了一個(gè)具有代表性的完整的基于Hadoop的商業(yè)智能系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn),全書(shū)結(jié)構(gòu)針對(duì)學(xué)習(xí)曲線進(jìn)行了優(yōu)化,從淺至深,從理論基礎(chǔ)到項(xiàng)目實(shí)戰(zhàn),適合Hadoop的初學(xué)者和進(jìn)階者下載閱讀。
收起介紹展開(kāi)介紹
內(nèi)容介紹
《Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)》介紹了Hadoop技術(shù)的相關(guān)知識(shí),并將理論知識(shí)與實(shí)際項(xiàng)目相結(jié)合。全書(shū)共分為三個(gè)部分:基礎(chǔ)篇、應(yīng)用篇和總結(jié)篇。基礎(chǔ)篇詳細(xì)介紹了Hadoop、MapReduce、HDFS、Hive和Sqoop,并深入探討了Hadoop的運(yùn)維和調(diào)優(yōu);應(yīng)用篇?jiǎng)t包含了一個(gè)具有代表性的完整的基于Hadoop的商業(yè)智能系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn);結(jié)束篇對(duì)全書(shū)進(jìn)行總結(jié),并對(duì)未來(lái)的技術(shù)發(fā)展做了展望。全書(shū)結(jié)構(gòu)針對(duì)學(xué)習(xí)曲線進(jìn)行了優(yōu)化,由淺至深,從理論基礎(chǔ)到項(xiàng)目實(shí)戰(zhàn),適合Hadoop的初學(xué)者閱讀,也適合作為高等院校相關(guān)課程的教學(xué)參考書(shū)。
章節(jié)目錄
基礎(chǔ)篇:Hadoop基礎(chǔ) 第1章 緒論 1.1 Hadoop和云計(jì)算 1.1.1 Hadoop的電梯演講 1.1.2 Hadoop生態(tài)圈 1.1.3 云計(jì)算的定義 1.1.4 云計(jì)算的類(lèi)型 1.1.5 Hadoop和云計(jì)算 1.2 Hadoop和大數(shù)據(jù) 1.2.1 大數(shù)據(jù)的定義 1.2.2 大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型 1.2.3 大數(shù)據(jù)行業(yè)應(yīng)用實(shí)例 1.2.4 Hadoop和大數(shù)據(jù) 1.2.5 其他大數(shù)據(jù)處理平臺(tái) 1.3 數(shù)據(jù)挖掘和商業(yè)智能 1.3.1 數(shù)據(jù)挖掘的定義 1.3.2 數(shù)據(jù)倉(cāng)庫(kù) 1.3.3 操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的區(qū)別 1.3.4 為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù) 1.3.5 商業(yè)智能 1.3.6 大數(shù)據(jù)時(shí)代的商業(yè)智能 第2章 環(huán)境準(zhǔn)備 2.1 Hadoop的發(fā)行版本選擇 2.1.1 Apache Hadoop 2.1.2 CDH 2.1.3 Hadoop的版本 2.1.4 如何選擇Hadoop的版本 2.2 Hadoop架構(gòu) 2.2.1 Hadoop HDFS架構(gòu) 2.2.2 Hadoop MapReduce架構(gòu) 2.2.3 Hadoop架構(gòu) 2.3 安裝Hadoop 2.3.1 安裝運(yùn)行環(huán)境 2.3.2 修改主機(jī)名和用戶(hù)名 2.3.3 配置靜態(tài)IP地址 2.3.4 配置SSH無(wú)密碼連接 2.3.5 安裝JDK 2.3.6 配置Hadoop 2.3.7 格式化HDFS 2.3.8 啟動(dòng)Hadoop并驗(yàn)證安裝 2.4 安裝Hive 2.4.1 安裝元數(shù)據(jù)庫(kù) 2.4.2 修改Hive配置文件 2.4.3 驗(yàn)證安裝 2.5 安裝Sqoop 2.6 Eclipse Hadoop插件的安裝和使用 2.6.1 安裝并配置Eclipse Hadoop插件 2.6.2 Eclipse插件的使用 第3章 Hadoop的基石:HDFS 3.1 認(rèn)識(shí)HDFS 3.1.1 HDFS的設(shè)計(jì)理念 3.1.2 HDFS的架構(gòu) 3.1.3 HDFS容錯(cuò) 3.2 HDFS讀取文件和寫(xiě)入文件 3.2.1 塊的分布 3.2.2 數(shù)據(jù)讀取 3.2.3 寫(xiě)入數(shù)據(jù) 3.2.4 數(shù)據(jù)完整性 3.3 如何訪問(wèn)HDFS 3.3.1 命令行接口 3.3.2 Java API 3.3.3 其他常用的接口 3.3.4 Web UI 第4章 分而治之的智慧:MapReduce 4.1 認(rèn)識(shí)MapReduce 4.1.1 MapReduce的編程思想 4.1.2 MapReduce運(yùn)行環(huán)境 4.1.3 MapReduce作業(yè)和任務(wù) 4.1.4 MapReduce的計(jì)算資源劃分 4.1.5 MapReduce的局限性 4.2 Hello WordCount 4.2.1 WordCount的設(shè)計(jì)思路 4.2.2 編寫(xiě)WordCount 4.2.3 運(yùn)行程序 4.2.4 還能更快嗎 4.3 MapReduce的過(guò)程 4.3.1 從輸入到輸出 4.3.2 input 4.3.3 map及中間結(jié)果的輸出 4.3.4 shuffle 4.3.5 reduce及最后結(jié)果的輸出 4.3.6 sort 4.3.7 作業(yè)的進(jìn)度組成 4.4 MapReduce的工作機(jī)制 4.4.1 作業(yè)提交 4.4.2 作業(yè)初始化 4.4.3 任務(wù)分配 4.4.4 任務(wù)執(zhí)行 4.4.5 任務(wù)完成 4.4.6 推測(cè)執(zhí)行 4.4.7 MapReduce容錯(cuò) 4.5 MapReduce編程 4.5.1 Writable類(lèi) 4.5.2 編寫(xiě)Writable類(lèi) 4.5.3 編寫(xiě)Mapper類(lèi) 4.5.4 編寫(xiě)Reducer類(lèi) 4.5.5 控制shuffle 4.5.6 控制sort 4.5.7 編寫(xiě)main函數(shù) 4.6 MapReduce編程實(shí)例:連接 4.6.1 設(shè)計(jì)思路 4.6.2 編寫(xiě)Mapper類(lèi) 4.6.3 編寫(xiě)Reducer類(lèi) 4.6.4 編寫(xiě)main函數(shù) 4.7 MapReduce編程實(shí)例:二次排序 4.7.1 設(shè)計(jì)思路 4.7.2 編寫(xiě)Mapper類(lèi) 4.7.3 編寫(xiě)Partitioner類(lèi) 4.7.4 編寫(xiě)SortComparator類(lèi) 4.7.5 編寫(xiě)Reducer類(lèi) 4.7.6 編寫(xiě)main函數(shù) 4.8 MapReduce編程實(shí)例:全排序 4.8.1 設(shè)計(jì)思路 4.8.2 編寫(xiě)代碼 第5章 SQL on Hadoop:Hive 5.1 認(rèn)識(shí)Hive 5.1.1 從MapReduce到SQL 5.1.2 Hive架構(gòu) 5.1.3 Hive與關(guān)系型數(shù)據(jù)庫(kù)的區(qū)別 5.1.4 Hive命令的使用 5.2 數(shù)據(jù)類(lèi)型和存儲(chǔ)格式 5.2.1 基本數(shù)據(jù)類(lèi)型 5.2.2 復(fù)雜數(shù)據(jù)類(lèi)型 5.2.3 存儲(chǔ)格式 5.2.4 數(shù)據(jù)格式 5.3 HQL:數(shù)據(jù)定義 5.3.1 Hive中的數(shù)據(jù)庫(kù) 5.3.2 Hive中的表 5.3.3 創(chuàng)建表 5.3.4 管理表 5.3.5 外部表 5.3.6 分區(qū)表 5.3.7 刪除表 5.3.8 修改表 5.4 HQL:數(shù)據(jù)操作 5.4.1 裝載數(shù)據(jù) 5.4.2 通過(guò)查詢(xún)語(yǔ)句向表中插入數(shù)據(jù) 5.4.3 利用動(dòng)態(tài)分區(qū)向表中插入數(shù)據(jù) 5.4.4 通過(guò)CTAS加載數(shù)據(jù) 5.4.5 導(dǎo)出數(shù)據(jù) 5.5 HQL:數(shù)據(jù)查詢(xún) 5.5.1 SELECT…FROM語(yǔ)句 5.5.2 WHERE語(yǔ)句 5.5.3 GROUP BY和HAVING語(yǔ)句 5.5.4JOIN語(yǔ)句 5.5.5 ORDER BY和SORT BY語(yǔ)句 5.5.6 DISTRIBUTE BY和SORTBY語(yǔ)句 5.5.7 CLUSTER BY 5.5.8 分桶和抽樣 5.5.9 UNION ALL 5.6 Hive函數(shù) 5.6.1 標(biāo)準(zhǔn)函數(shù) 5.6.2 聚合函數(shù) 5.6.3 表生成函數(shù) 5.7 Hive用戶(hù)自定義函數(shù) 5.7.1 UDF 5.7.2 UDAF 5.7.3 UDTF 5.7.4 運(yùn)行 第6章 SQL to Hadoop : Sqoop 6.1 一個(gè)Sqoop示例 6.2 導(dǎo)入過(guò)程 6.3 導(dǎo)出過(guò)程 6.4 Sqoop的使用 6.4.1 codegen 6.4.2 create-hive-table 6.4.3 eval 6.4.4 export 6.4.5 help 6.4.6 import 6.4.7 import-all-tables 6.4.8 job 6.4.9 list-databases 6.4.10 list-tables 6.4.11 merge 6.4.12 metastore 6.4.13 version 第7章 Hadoop性能調(diào)優(yōu)和運(yùn)維 7.1 Hadoop客戶(hù)端 7.2 Hadoop性能調(diào)優(yōu) 7.2.1 選擇合適的硬件 7.2.2 操作系統(tǒng)調(diào)優(yōu) 7.2.3 JVM調(diào)優(yōu) 7.2.4 Hadoop參數(shù)調(diào)優(yōu) 7.3 Hive性能調(diào)優(yōu) 7.3.1 JOIN優(yōu)化 7.3.2 Reducer的數(shù)量 7.3.3 列裁剪 7.3.4 分區(qū)裁剪 7.3.5 GROUP BY優(yōu)化 7.3.6 合并小文件 7.3.7 MULTI-GROUP BY和MULTI-INSERT
使用說(shuō)明
1、下載并解壓,得出pdf文件2、如果打不開(kāi)本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開(kāi)解壓得出的pdf文件
4、雙擊進(jìn)行閱讀
- 下載地址
Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn) 范東來(lái)pdf掃描版
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問(wèn)題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門(mén)推薦
- 有柿電腦版 v11.5.684.06M / 簡(jiǎn)體中文
- 網(wǎng)易新聞電腦版 v112.697.63M / 簡(jiǎn)體中文
- 吉利博瑞用戶(hù)手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- 開(kāi)源閱讀電腦版 v3.2517.96M / 簡(jiǎn)體中文
- 京東讀書(shū)電腦版 v1.13.4官方版1.98M / 簡(jiǎn)體中文
- 未公開(kāi)的Oracle數(shù)據(jù)庫(kù)秘密 迪貝斯pdf掃描版34.69M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- docker入門(mén)實(shí)戰(zhàn) pdf完整版1.38M / 簡(jiǎn)體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡(jiǎn)體中文
- HotSpot實(shí)戰(zhàn)(陳濤著) 中文pdf掃描版82M / 簡(jiǎn)體中文