命令行中的數(shù)據(jù)科學(xué)是一本數(shù)據(jù)科學(xué)書籍,由詹森斯(Jeroen Janssens)編著。本書獨(dú)樹一幟,教你利用靈活的命令行工具成為高效多產(chǎn)的數(shù)據(jù)科學(xué)家。為此,作者開發(fā)了數(shù)據(jù)科學(xué)工具箱,一個包含80多個命令行工具的安裝簡單的虛擬環(huán)境,能在Windows、OS X和Linux操作系統(tǒng)上運(yùn)行。
你將學(xué)會如何結(jié)合使用這些小而強(qiáng)大的命令行工具,快速地獲取、清洗、探索和建模數(shù)據(jù)。通過閱讀本書,你會明白為什么命令行是一種靈活、可伸縮、易擴(kuò)展的技術(shù)。即使你已經(jīng)能夠使用Python或R得心應(yīng)手地處理數(shù)據(jù),利用命令行也將大大改進(jìn)你的數(shù)據(jù)科學(xué)工作流。
內(nèi)容介紹
《命令行中的數(shù)據(jù)科學(xué)》集實(shí)用性和先進(jìn)性于一身,為數(shù)據(jù)分析人員使用命令行這個靈活的工具提供了重要參考。作者講解了眾多實(shí)用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數(shù)據(jù)。
論你使用Windows、OS X,還是Linux,都可以安裝包含80多個命令行工具的“數(shù)據(jù)科學(xué)工具箱”,迅速建立自己的數(shù)據(jù)分析環(huán)境。論你是否已經(jīng)習(xí)慣于使用Python或R語言,都能夠通過本書體會到使用命令行的快捷、靈活與伸縮自如。
本書適合各層次的軟件開發(fā)人員,包括專業(yè)和非 專業(yè)的數(shù)據(jù)分析人員。
章節(jié)目錄
前言 XIII 第1 章 簡介 1 1.1 概述 1 1.2 數(shù)據(jù)科學(xué)就是OSEMN 2 1.2.1 數(shù)據(jù)獲取 2 1.2.2 數(shù)據(jù)清洗 2 1.2.3 數(shù)據(jù)探索 3 1.2.4 數(shù)據(jù)建模 3 1.2.5 數(shù)據(jù)解釋 3 1.3 插入的幾章 4 1.4 什么是命令行 4 1.5 為什么用命令行做數(shù)據(jù)科學(xué)工作 6 1.5.1 命令行的靈活性 6 1.5.2 命令行可增強(qiáng) 6 1.5.3 命令行可擴(kuò)展 7 1.5.4 命令行可擴(kuò)充 7 1.5.5 命令行處不在 7 1.6 一個現(xiàn)實(shí)用例 8 1.7 延伸閱讀 11 第2 章 入門指南 13 2.1 概述 13 2.2 設(shè)置數(shù)據(jù)科學(xué)工具箱 13 2.2.1 步驟1:下載和安裝VirtualBox 14 2.2.2 步驟2:下載和安裝Vagrant 14 2.2.3 步驟3:下載并啟動數(shù)據(jù)科學(xué)工具箱 14 2.2.4 步驟4:登錄(Linux 和Mac OS X) 16 2.2.5 步驟4:登錄(微軟Windows) 16 2.2.6 步驟5:關(guān)閉或重啟 16 2.3 必要的概念和工具 17 2.3.1 環(huán)境 17 2.3.2 運(yùn)行命令行工具 18 2.3.3 五類命令行工具 19 2.3.4 命令行工具的組合 21 2.3.5 輸入和輸出重定向 22 2.3.6 處理文件 23 2.3.7 尋求幫助 24 2.4 延伸閱讀 26 第3 章 數(shù)據(jù)獲取 27 3.1 概述 27 3.2 將本地文件復(fù)制到數(shù)據(jù)科學(xué)工具箱 28 3.2.1 本地數(shù)據(jù)科學(xué)工具箱 28 3.2.2 遠(yuǎn)程數(shù)據(jù)科學(xué)工具箱 28 3.3 解壓縮文件 29 3.4 微軟Excel 電子表格的轉(zhuǎn)換 30 3.5 查詢關(guān)系數(shù)據(jù)庫 32 3.6 從互聯(lián)網(wǎng)下載 33 3.7 調(diào)用Web API 35 3.8 延伸閱讀 36 第4 章 創(chuàng)建可重用的命令行工具 37 4.1 概述 38 4.2 將單行轉(zhuǎn)變?yōu)閟hell 腳本 38 4.2.1 步驟1:復(fù)制和粘貼 39 4.2.2 步驟2:添加執(zhí)行權(quán)限 40 4.2.3 步驟3:定義shebang 41 4.2.4 步驟4:刪除固定的輸入 42 4.2.5 步驟5:參數(shù)化 42 4.2.6 步驟6:擴(kuò)展PATH 43 4.3 用Python 和R 創(chuàng)建命令行工具 44 4.3.1 移植shell 腳本 45 4.3.2 處理來自標(biāo)準(zhǔn)輸入的流數(shù)據(jù) 46 4.4 延伸閱讀 47 第5 章 數(shù)據(jù)清洗 49 5.1 概述 50 5.2 純文本的常見清洗操作 50 5.2.1 行過濾 50 5.2.2 值提取 54 5.2.3 值替換和刪除 55 5.3 處理CSV 56 5.3.1 主體、頭部和列 56 5.3.2 對CSV 執(zhí)行SQL 查詢 60 5.4 處理HTML/XML 和JSON 61 5.5 CSV 的常見清洗操作 65 5.5.1 列的提取和重排序 65 5.5.2 行過濾 66 5.5.3 列合并 67 5.5.4 多個CSV 文件的合并 70 5.6 延伸閱讀 73 第6 章 管理數(shù)據(jù)工作流 75 6.1 概述 76 6.2 Drake 簡介 76 6.3 Drake 的安裝 76 6.4 獲取古騰堡計劃中下載最多的電子書 78 6.5 所有工作流都從單個步驟開始 79 6.6 具體情況具體對待 81 6.7 重新構(gòu)建具體目標(biāo) 82 6.8 討論 83 6.9 延伸閱讀 83 第7 章 數(shù)據(jù)探索 85 7.1 概述 85 7.2 檢查數(shù)據(jù)及其屬性 86 7.2.1 確定有數(shù)據(jù)頭 86 7.2.2 檢查所有數(shù)據(jù) 86 7.2.3 特征名稱和數(shù)據(jù)類型 87 7.2.4 唯一標(biāo)識、連續(xù)變量和因子 89 7.3 計算描述性統(tǒng)計信息 90 7.3.1 使用csvstat 90 7.3.2 在命令行中通過Rio 使用R 92 7.4 生成可視化圖形 95 7.4.1 介紹Gunplot 和feedgnuplot 95 7.4.2 介紹ggplot2 97 7.4.3 直方圖 99 7.4.4 條形圖 101 7.4.5 密度圖 102 7.4.6 箱線圖 103 7.4.7 散點(diǎn)圖 103 7.4.8 折線圖 105 7.4.9 總結(jié) 106 7.5 延伸閱讀 106 第8 章 并行管道 107 8.1 概述 108 8.2 串行處理 108 8.2.1 對數(shù)字進(jìn)行遍歷 108 8.2.2 對行進(jìn)行遍歷 109 8.2.3 對文件進(jìn)行遍歷 110 8.3 并行處理 111 8.3.1 GNU Parallel 介紹 112 8.3.2 指定輸入 113 8.3.3 控制并發(fā)任務(wù)的個數(shù) 114 8.3.4 記錄日志和輸出 115 8.3.5 創(chuàng)建并行工具 116 8.4 分布式處理 117 8.4.1 獲得運(yùn)行中的AWS EC2 實(shí)例列表 117 8.4.2 在遠(yuǎn)程機(jī)器上運(yùn)行命令 118 8.4.3 在遠(yuǎn)程機(jī)器間分發(fā)本地數(shù)據(jù) 119 8.4.4 在遠(yuǎn)程機(jī)器上處理文件 120 8.5 討論 123 8.6 延伸閱讀 123 第9 章 數(shù)據(jù)建模 125 9.1 概述 126 9.2 更多的酒,來吧! 126 9.3 用Tapkee 降維 129 9.3.1 介紹Tapkee 130 9.3.2 安裝Tapkee 130 9.3.3 線性和非線性映射 130 9.4 用Weka 聚類 132 9.4.1 介紹Weka 132 9.4.2 在命令行里改進(jìn)Weka 132 9.4.3 在CSV 和ARFF 格式之間轉(zhuǎn)換 136 9.4.4 比較三種聚類算法 136 9.5 通過SciKit-Learn Laboratory 進(jìn)行回歸 139 9.5.1 準(zhǔn)備數(shù)據(jù) 139 9.5.2 運(yùn)行實(shí)驗(yàn) 139 9.5.3 解析結(jié)果 140 9.6 用BigML 分類 141 9.6.1 生成均衡的訓(xùn)練和測試數(shù)據(jù)集 141 9.6.2 調(diào)用API 143 9.6.3 檢查結(jié)果 143 9.6.4 小結(jié) 144 9.7 延伸閱讀 144 第10 章 總結(jié) 145 10.1 讓我們回顧一下145 10.2 三條建議 146 10.2.1 有耐心 146 10.2.2 有所創(chuàng)新 146 10.2.3 肯于實(shí)踐 147 10.3 接下來做什么 147 10.3.1 API 147 10.3.2 shell 編程 147 10.3.3 Python、R 和SQL 147 10.3.4 數(shù)據(jù)解釋 148 10.4 聯(lián)系方式 148 附錄A 命令行工具列表 149 附錄B 參考文獻(xiàn) 167 作者介紹 169
使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀試讀
- 下載地址
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 有柿電腦版 v11.6.284.23M / 簡體中文
- cnki全球?qū)W術(shù)快報電腦版 v1.0.1135.99M / 簡體中文
- 網(wǎng)易新聞電腦版 v113.197.68M / 簡體中文
- 開源閱讀電腦版 v3.2517.96M / 簡體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡體中文
- 未公開的Oracle數(shù)據(jù)庫秘密 迪貝斯pdf掃描版34.69M / 簡體中文
- PHP語言精粹電子書 pdf掃描版25.72M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文