hadoop大數(shù)據(jù)分析與挖掘實戰(zhàn)是一本Hadoop大數(shù)據(jù)分析實戰(zhàn)書籍,由張良均,樊哲,趙云龍和李成華四人共同編著。本書以大家熟知的Hadoop技術來展開,理論部分介紹了Hadoop生態(tài)系統(tǒng)基本原理及常用大數(shù)據(jù)挖掘建模工具。案例部分以解決某個應用的挖掘目標為前提,先介紹案例背景提出挖掘目標,再闡述分析方法與過程,最后完成模型構建,在介紹建模過程中穿插操作訓練,把相關的知識點嵌入相應的操作過程中,使讀者輕松理解并掌握相關的理論和知識點。
《hadoop大數(shù)據(jù)分析與挖掘實戰(zhàn)》共16章,分三個部分:基礎篇、實戰(zhàn)篇、高級篇。
基礎篇(第1~6章),第1章的主要內容是數(shù)據(jù)挖掘概述、大數(shù)據(jù)餐飲行業(yè)應用;第2章針對大數(shù)據(jù)理論知識進行基礎講解,簡明扼要地對Hadoop安裝、原理等做了介紹;第3章介紹了大數(shù)據(jù)倉庫Hive的安裝、原理等內容;第4章介紹了大數(shù)據(jù)數(shù)據(jù)庫HBase的安裝、原理等內容;第5章介紹了幾種大數(shù)據(jù)挖掘建模平臺,同時重點介紹了本書使用的開源TipDM-HB大數(shù)據(jù)挖掘平臺;第6章對數(shù)據(jù)挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數(shù)據(jù)挖掘算法庫Mahout的實現(xiàn)原理進行了介紹。
實戰(zhàn)篇(第7~14章),重點對大數(shù)據(jù)挖掘技術在法律咨詢、電子商務、航空、移動通信、互聯(lián)網(wǎng)、生產制造以及公共服務等行業(yè)的應用進行了分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述大數(shù)據(jù)時代針對大數(shù)據(jù)的分析方法與過程,最后完成模型構建的順序進行,對建模過程等關鍵環(huán)節(jié)進行了詳細的分析。最后通過上機實踐,加深對大數(shù)據(jù)挖掘技術以及分析流程的認識。
高級篇(第15~16章),介紹了基于Hadoop大數(shù)據(jù)開發(fā)的相關技術以及開發(fā)步驟,同時使用實例來展示這些步驟,使讀者可以自己動手實踐,親自體會開發(fā)的樂趣;同時,還介紹了基于TipDM-HB大數(shù)據(jù)挖掘平臺的二次開發(fā)實例,借助TipDM-HB大數(shù)據(jù)挖掘平臺二次開發(fā)工具,可以更加快捷、高效地完成相關大數(shù)據(jù)應用的二次開發(fā),降低開發(fā)難度,使讀者更方便地體會到大數(shù)據(jù)分析與挖掘的強大魅力。
2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀試讀
收起介紹展開介紹
內容介紹
10多位技術專家結合自己10多年的經驗,以電信、航空、醫(yī)療等多個行業(yè)的實戰(zhàn)案例為主線,深入淺出地講解了如何基于Hadoop架構技術進行大數(shù)據(jù)挖掘建模、數(shù)據(jù)分析和二次開發(fā)。《hadoop大數(shù)據(jù)分析與挖掘實戰(zhàn)》共16章,分三個部分:基礎篇、實戰(zhàn)篇、高級篇。
基礎篇(第1~6章),第1章的主要內容是數(shù)據(jù)挖掘概述、大數(shù)據(jù)餐飲行業(yè)應用;第2章針對大數(shù)據(jù)理論知識進行基礎講解,簡明扼要地對Hadoop安裝、原理等做了介紹;第3章介紹了大數(shù)據(jù)倉庫Hive的安裝、原理等內容;第4章介紹了大數(shù)據(jù)數(shù)據(jù)庫HBase的安裝、原理等內容;第5章介紹了幾種大數(shù)據(jù)挖掘建模平臺,同時重點介紹了本書使用的開源TipDM-HB大數(shù)據(jù)挖掘平臺;第6章對數(shù)據(jù)挖掘的建模過程,各種挖掘建模的常用算法與原理及其在大數(shù)據(jù)挖掘算法庫Mahout的實現(xiàn)原理進行了介紹。
實戰(zhàn)篇(第7~14章),重點對大數(shù)據(jù)挖掘技術在法律咨詢、電子商務、航空、移動通信、互聯(lián)網(wǎng)、生產制造以及公共服務等行業(yè)的應用進行了分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述大數(shù)據(jù)時代針對大數(shù)據(jù)的分析方法與過程,最后完成模型構建的順序進行,對建模過程等關鍵環(huán)節(jié)進行了詳細的分析。最后通過上機實踐,加深對大數(shù)據(jù)挖掘技術以及分析流程的認識。
高級篇(第15~16章),介紹了基于Hadoop大數(shù)據(jù)開發(fā)的相關技術以及開發(fā)步驟,同時使用實例來展示這些步驟,使讀者可以自己動手實踐,親自體會開發(fā)的樂趣;同時,還介紹了基于TipDM-HB大數(shù)據(jù)挖掘平臺的二次開發(fā)實例,借助TipDM-HB大數(shù)據(jù)挖掘平臺二次開發(fā)工具,可以更加快捷、高效地完成相關大數(shù)據(jù)應用的二次開發(fā),降低開發(fā)難度,使讀者更方便地體會到大數(shù)據(jù)分析與挖掘的強大魅力。
章節(jié)目錄
前 言 基 礎 篇 第1章 數(shù)據(jù)挖掘基礎2 1.1 某知名連鎖餐飲企業(yè)的困惑2 1.2 從餐飲服務到數(shù)據(jù)挖掘3 1.3 數(shù)據(jù)挖掘的基本任務4 1.4 數(shù)據(jù)挖掘建模過程4 1.4.1 定義挖掘目標4 1.4.2 數(shù)據(jù)取樣5 1.4.3 數(shù)據(jù)探索6 1.4.4 數(shù)據(jù)預處理12 1.4.5 挖掘建模14 1.4.6 模型評價14 1.5 餐飲服務中的大數(shù)據(jù)應用15 1.6 小結15 第2章 Hadoop基礎16 2.1 概述16 2.1.1 Hadoop簡介16 2.1.2 Hadoop生態(tài)系統(tǒng)17 2.2 安裝與配置19 2.3 Hadoop原理26 2.3.1 Hadoop HDFS原理26 2.3.2 Hadoop MapReduce原理27 2.3.3 Hadoop YARN原理28 2.4 動手實踐30 2.5 小結33 第3章 Hadoop生態(tài)系統(tǒng):Hive34 3.1 概述34 3.1.1 Hive簡介34 3.1.2 Hive安裝與配置35 3.2 Hive原理38 3.2.1 Hive架構38 3.2.2 Hive的數(shù)據(jù)模型40 3.3 動手實踐41 3.4 小結45 第4章 Hadoop生態(tài)系統(tǒng):HBase46 4.1 概述46 4.1.1 HBase簡介46 4.1.2 HBase安裝與配置47 4.2 HBase原理50 4.2.1 HBase架構50 4.2.2 HBase與RDBMS51 4.2.3 HBase訪問接口52 4.2.4 HBase數(shù)據(jù)模型53 4.3 動手實踐54 4.4 小結61 第5章 大數(shù)據(jù)挖掘建模平臺62 5.1 常用的大數(shù)據(jù)平臺62 5.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺63 5.2.1 TipDM-HB大數(shù)據(jù)挖掘建模平臺的功能63 5.2.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺操作流程及實例65 5.2.3 TipDM-HB大數(shù)據(jù)挖掘建模平臺的特點67 5.3 小結68 第6章 挖掘建模69 6.1 分類與預測69 6.1.1 實現(xiàn)過程69 6.1.2 常用的分類與預測算法70 6.1.3 決策樹71 6.1.4 Mahout中Random Forests算法的實現(xiàn)原理75 6.1.5 動手實踐79 6.2 聚類分析83 6.2.1 常用聚類分析算法83 6.2.2 K-Means聚類算法84 6.2.3 Mahout中K-Means算法的實現(xiàn)原理88 6.2.4 動手實踐90 6.3 關聯(lián)規(guī)則93 6.3.1 常用的關聯(lián)規(guī)則算法93 6.3.2 FP-Growth關聯(lián)規(guī)則算法94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的實現(xiàn)原理98 6.3.4 動手實踐100 6.4 協(xié)同過濾102 6.4.1 常用的協(xié)同過濾算法102 6.4.2 基于項目的協(xié)同過濾算法簡介102 6.4.3 Mahout中Itembased Collaborative Filtering算法的實現(xiàn)原理103 6.4.4 動手實踐106 6.5 小結109 實 戰(zhàn) 篇 第7章 法律咨詢數(shù)據(jù)分析與服務推薦112 7.1 背景與挖掘目標112 7.2 分析方法與過程114 7.2.1 數(shù)據(jù)抽取120 7.2.2 數(shù)據(jù)探索分析120 7.2.3 數(shù)據(jù)預處理125 7.2.4 模型構建130 7.3 上機實驗139 7.4 拓展思考140 7.5 小結145 第8章 電商產品評論數(shù)據(jù)情感分析146 8.1 背景與挖掘目標146 8.2 分析方法與過程146 8.2.1 評論數(shù)據(jù)采集147 8.2.2 評論預處理150 8.2.3 文本評論分詞155 8.2.4 構建模型155 8.3 上機實驗167 8.4 拓展思考168 8.5 小結169 第9章 航空公司客戶價值分析170 9.1 背景與挖掘目標170 9.2 分析方法與過程171 9.2.1 數(shù)據(jù)抽取174 9.2.2 數(shù)據(jù)探索分析174 9.2.3 數(shù)據(jù)預處理175 9.2.4 模型構建177 9.3 上機實驗182 9.4 拓展思考183 9.5 小結183 第10章 基站定位數(shù)據(jù)商圈分析184 10.1 背景與挖掘目標184 10.2 分析方法與過程186 10.2.1 數(shù)據(jù)抽取186 10.2.2 數(shù)據(jù)探索分析187 10.2.3 數(shù)據(jù)預處理188 10.2.4 構建模型191 10.3 上機實驗194 10.4 拓展思考195 10.5 小結195 第11章 互聯(lián)網(wǎng)電影智能推薦196 11.1 背景與挖掘目標196 11.2 分析方法與過程197 11.2.1 數(shù)據(jù)抽取199 11.2.2 構建模型199 11.3 上機實驗201 11.4 拓展思考202 11.5 小結203 第12章 家電故障備件儲備預測分析204 12.1 背景與挖掘目標204 12.2 分析方法與過程206 12.2.1 數(shù)據(jù)探索分析207 12.2.2 數(shù)據(jù)預處理209 12.2.3 構建模型212 12.3 上機實驗216 12.4 拓展思考217 12.5 小結217 第13章 市供水混凝投藥量控制分析218 13.1 背景與挖掘目標218 13.2 分析方法與過程220 13.2.1 數(shù)據(jù)抽取221 13.2.2 數(shù)據(jù)探索分析221 13.2.3 數(shù)據(jù)預處理223 13.2.4 構建模型227 13.3 上機實驗237 13.4 拓展思考238 13.5 小結239 第14章 基于圖像處理的車輛壓雙黃線檢測240 14.1 背景與挖掘目標240 14.2 分析方法與過程241 14.2.1 數(shù)據(jù)抽取242 14.2.2 數(shù)據(jù)探索分析242 14.2.3 數(shù)據(jù)預處理242 14.2.4 構建模型249 14.3 上機實驗250 14.4 拓展思考250 14.5 小結251 高 級 篇 第15章 基于Mahout的大數(shù)據(jù)挖掘開發(fā)254 15.1 概述254 15.2 環(huán)境配置255 15.3 基于Mahout算法接口的二次開發(fā)258 15.3.1 Mahout算法實例258 15.3.2 Mahout算法接口的二次開發(fā)示例259 15.4 小結271 第16章 基于TipDM-HB的數(shù)據(jù)挖掘二次開發(fā)272 16.1 概述272 16.1.1 TipDM-HB大數(shù)據(jù)挖掘建模平臺服務接口272 16.1.2 Apache CXF簡介276 16.2 TipDM-HB大數(shù)據(jù)挖掘建模平臺服務開發(fā)實例277 16.2.1 環(huán)境配置277 16.2.2 開發(fā)實例280 16.3 小結288 參考資料289
使用說明
1、下載并解壓,得出pdf文件2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀試讀
- 下載地址
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 南方Plus電腦版 v11.8.027.22M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 吉利博瑞用戶手冊 pdf高清版57.89M / 簡體中文
- 開源閱讀電腦版 v3.2517.96M / 簡體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡體中文
- cnki全球學術快報電腦版 v0.2.3495.79M / 簡體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文
- docker入門實戰(zhàn) pdf完整版1.38M / 簡體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡體中文