干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐是一本數(shù)據(jù)清洗指導學習書籍,由美國的Megan Squie編著,本書從文件格式、數(shù)據(jù)類型、字符編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關系型數(shù)據(jù)庫、網(wǎng)頁文件和PDF文檔中的數(shù)據(jù)。
最后提供了兩個真實的項目,讓讀者將所有數(shù)據(jù)清洗技術付諸實踐,完成整個數(shù)據(jù)科學過程,適合任何一個對數(shù)據(jù)清洗感興趣的人閱讀。
如果你是一位數(shù)據(jù)科學家,或者從事數(shù)據(jù)科學工作,哪怕是位新手,只要對數(shù)據(jù)清洗有興趣,那么《干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐》就適合你閱讀!
- 理解數(shù)據(jù)清洗在整個數(shù)據(jù)科學過程中的作用
- 掌握數(shù)據(jù)清洗的基礎知識,包括文件清洗、數(shù)據(jù)類型、字符編碼等
- 發(fā)掘電子表格和文本編輯器中與數(shù)據(jù)組織和操作相關的重要功能
- 學會常見數(shù)據(jù)格式的相互轉換,如JSON、CSV和一些特殊用途的格式
- 采用三種策略來解析和清洗HTML文件中的數(shù)據(jù)
- 揭開PDF文檔的秘密,提取需要的數(shù)據(jù)
- 借助一系列解決方案來清洗存放在關系型數(shù)據(jù)庫里的壞數(shù)據(jù)
- 創(chuàng)建自己的干凈數(shù)據(jù)集,為其打包、添加授權許可并與他人共享
- 使用書中的工具,完成兩個真實的項目
《干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐》主要內(nèi)容包括:數(shù)據(jù)清洗在數(shù)據(jù)科學領域中的重要作用,文件格式、數(shù)據(jù)類型、字符編碼的基本概念,組織和處理數(shù)據(jù)的電子表格與文本編輯器,各種格式數(shù)據(jù)的轉換方法,解析和清洗網(wǎng)頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數(shù)據(jù)的方法,檢測和清除RDBMS 中的壞數(shù)據(jù)的解決方案,以及使用書中介紹的方法清洗來自Stack Overflow 的數(shù)據(jù)。
2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀
收起介紹展開介紹
最后提供了兩個真實的項目,讓讀者將所有數(shù)據(jù)清洗技術付諸實踐,完成整個數(shù)據(jù)科學過程,適合任何一個對數(shù)據(jù)清洗感興趣的人閱讀。
內(nèi)容簡介
數(shù)據(jù)清洗是數(shù)據(jù)挖掘與分析過程中不可缺少的一個環(huán)節(jié),但因為數(shù)據(jù)類型極其復雜,傳統(tǒng)的清洗臟數(shù)據(jù)工作單調乏味且異常辛苦。如果能利用正確的工具和方法,就可以讓數(shù)據(jù)清洗工作事半功倍。如果你是一位數(shù)據(jù)科學家,或者從事數(shù)據(jù)科學工作,哪怕是位新手,只要對數(shù)據(jù)清洗有興趣,那么《干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐》就適合你閱讀!
- 理解數(shù)據(jù)清洗在整個數(shù)據(jù)科學過程中的作用
- 掌握數(shù)據(jù)清洗的基礎知識,包括文件清洗、數(shù)據(jù)類型、字符編碼等
- 發(fā)掘電子表格和文本編輯器中與數(shù)據(jù)組織和操作相關的重要功能
- 學會常見數(shù)據(jù)格式的相互轉換,如JSON、CSV和一些特殊用途的格式
- 采用三種策略來解析和清洗HTML文件中的數(shù)據(jù)
- 揭開PDF文檔的秘密,提取需要的數(shù)據(jù)
- 借助一系列解決方案來清洗存放在關系型數(shù)據(jù)庫里的壞數(shù)據(jù)
- 創(chuàng)建自己的干凈數(shù)據(jù)集,為其打包、添加授權許可并與他人共享
- 使用書中的工具,完成兩個真實的項目
《干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐》主要內(nèi)容包括:數(shù)據(jù)清洗在數(shù)據(jù)科學領域中的重要作用,文件格式、數(shù)據(jù)類型、字符編碼的基本概念,組織和處理數(shù)據(jù)的電子表格與文本編輯器,各種格式數(shù)據(jù)的轉換方法,解析和清洗網(wǎng)頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數(shù)據(jù)的方法,檢測和清除RDBMS 中的壞數(shù)據(jù)的解決方案,以及使用書中介紹的方法清洗來自Stack Overflow 的數(shù)據(jù)。
干凈的數(shù)據(jù) 數(shù)據(jù)清洗入門與實踐章節(jié)目錄
目錄 第1 章 為什么需要清洗數(shù)據(jù) 1 1.1 新視角 1 1.2 數(shù)據(jù)科學過程 2 1.3 傳達數(shù)據(jù)清洗工作的內(nèi)容 3 1.4 數(shù)據(jù)清洗環(huán)境 4 1.5 入門示例 5 1.6 小結 9 第2 章 基礎知識——格式、 類型與編碼 11 2.1 文件格式 11 2.1.1 文本文件與二進制文件 11 2.1.2 常見的文本文件格式 14 2.1.3 分隔格式 14 2.2 歸檔與壓縮 20 2.2.1 歸檔文件 20 2.2.2 壓縮文件 21 2.3 數(shù)據(jù)類型、空值與編碼 24 2.3.1 數(shù)據(jù)類型 25 2.3.2 數(shù)據(jù)類型間的相互轉換 29 2.3.3 轉換策略 30 2.3.4 隱藏在數(shù)據(jù)森林中的空值 37 2.3.5 字符編碼 41 2.4 小結 46 第3 章 數(shù)據(jù)清洗的老黃?!娮颖砀窈臀谋揪庉嬈鳌?7 3.1 電子表格中的數(shù)據(jù)清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本編輯器里的數(shù)據(jù)清洗 54 3.2.1 文本調整 55 3.2.2 列選模式 56 3.2.3 加強版的查找與替換功能 56 3.2.4 文本排序與去重處理 58 3.2.5 Process Containing 60 3.3 示例項目 60 3.3.1 第一步:問題陳述 60 3.3.2 第二步:數(shù)據(jù)收集 60 3.3.3 第三步:數(shù)據(jù)清洗 61 3.3.4 第四步:數(shù)據(jù)分析 63 3.4 小結 63 第4 章 講通用語言——數(shù)據(jù)轉換 64 4.1 基于工具的快速轉換 64 4.1.1 從電子表格到CSV 65 4.1.2 從電子表格到JSON 65 4.1.3 使用phpMyAdmin 從SQL語句中生成CSV 或JSON 67 4.2 使用PHP 實現(xiàn)數(shù)據(jù)轉換 69 4.2.1 使用PHP 實現(xiàn)SQL 到JSON的數(shù)據(jù)轉換 69 4.2.2 使用PHP 實現(xiàn)SQL 到CSV的數(shù)據(jù)轉換 70 4.2.3 使用PHP 實現(xiàn)JSON 到CSV的數(shù)據(jù)轉換 71 4.2.4 使用PHP 實現(xiàn)CSV 到JSON的數(shù)據(jù)轉換 71 4.3 使用Python 實現(xiàn)數(shù)據(jù)轉換 72 4.3.1 使用Python 實現(xiàn)CSV 到JSON的數(shù)據(jù)轉換 72 4.3.2 實現(xiàn)CSV 到JSON的數(shù)據(jù)轉換 73 4.3.3 使用Python 實現(xiàn)JSON 到CSV的數(shù)據(jù)轉換 74 4.4 示例項目 74 4.4.1 第一步:下載GDF 格式的數(shù)據(jù) 75 4.4.2 第二步:在文本編輯器中查看GDF 文件 75 4.4.3 第三步:從GDF 格式到JSON格式的轉換 76 4.4.4 第四步:構建D3 圖 79 4.4.5 第五步:把數(shù)據(jù)轉換成Pajek格式 81 4.4.6 第六步:簡單的社交網(wǎng)絡分析 83 4.5 小結 84 第5 章 收集并清洗來自網(wǎng)絡的數(shù)據(jù) 85 5.1 理解HTML 頁面結構 85 5.1.1 行分隔模型 86 5.1.2 樹形結構模型 86 5.2 方法一:Python 和正則表達式 87 5.2.1 第一步:查找并保存實驗用的Web 文件 88 5.2.2 第二步:觀察文件內(nèi)容并判定有價值的數(shù)據(jù) 88 5.2.3 第三步:編寫Python 程序把數(shù)據(jù)保存到CSV 文件中 89 5.2.4 第四步:查看文件并確認清洗結果 89 5.2.5 使用正則表達式解析HTML的局限性 90 5.3 方法二:Python 和BeautifulSoup 90 5.3.1 第一步:找到并保存實驗用的文件 90 5.3.2 第二步:安裝BeautifulSoup 91 5.3.3 第三步:編寫抽取數(shù)據(jù)用的Python 程序 91 5.3.4 第四步:查看文件并確認清洗結果 92 5.4 方法三:Chrome Scraper 92 5.4.1 第一步:安裝Chrome 擴展Scraper 92 5.4.2 第二步:從網(wǎng)站上收集數(shù)據(jù) 92 5.4.3 第三步:清洗數(shù)據(jù) 94 5.5 示例項目:從電子郵件和論壇中抽取數(shù)據(jù) 95 5.5.1 項目背景 95 5.5.2 第一部分:清洗來自Google Groups 電子郵件的數(shù)據(jù) 96 5.5.3 第二部分:清洗來自網(wǎng)絡論壇的數(shù)據(jù) 99 5.6 小結 105 第6 章 清洗PDF 文件中的數(shù)據(jù) 106 6.1 為什么PDF 文件很難清洗 106 6.2 簡單方案——復制 107 6.2.1 我們的實驗文件 107 6.2.2 第一步:把我們需要的數(shù)據(jù)復制出來 108 6.2.3 第二步:把復制出來的數(shù)據(jù)粘貼到文本編輯器中 109 6.2.4 第三步:輕量級文件 110 6.3 第二種技術——pdfMiner 111 6.3.1 第一步:安裝pdfMiner 111 6.3.2 第二步:從PDF 文件中提取文本 111 6.4 第三種技術——Tabula 113 6.4.1 第一步:下載Tabula 113 6.4.2 第二步:運行Tabula 113 6.4.3 第三步:用Tabula 提取數(shù)據(jù) 114 6.4.4 第四步:數(shù)據(jù)復制 114 6.4.5 第五步:進一步清洗 114 6.5 所有嘗試都失敗之后——第四種技術 115 6.6 小結 117 第7 章 RDBMS 清洗技術 118 7.1 準備 118 7.2 第一步:下載并檢查Sentiment140 119 7.3 第二步:清洗要導入的數(shù)據(jù) 119 7.4 第三步:把數(shù)據(jù)導入MySQL 120 7.4.1 發(fā)現(xiàn)并清洗異常數(shù)據(jù) 121 7.4.2 創(chuàng)建自己的數(shù)據(jù)表 122 7.5 第四步:清洗&字符 123 7.6 第五步:清洗其他未知字符 124 7.7 第六步:清洗日期 125 7.8 第七步:分離用戶提及、標簽和URL 127 7.8.1 創(chuàng)建一些新的數(shù)據(jù)表 128 7.8.2 提取用戶提及 128 7.8.3 提取標簽 130 7.8.4 提取URL 131 7.9 第八步:清洗查詢表 132 7.10 第九步:記錄操作步驟 134 7.11 小結 135 第8 章 數(shù)據(jù)分享的最佳實踐 136 8.1 準備干凈的數(shù)據(jù)包 136 8.2 為數(shù)據(jù)編寫文檔 139 8.2.1 README 文件 139 8.2.2 文件頭 141 8.2.3 數(shù)據(jù)模型和圖表 142 8.2.4 維基或CMS 144 8.3 為數(shù)據(jù)設置使用條款與許可協(xié)議 144 8.4 數(shù)據(jù)發(fā)布 146 8.4.1 數(shù)據(jù)集清單列表 146 8.4.2 Stack Exchange 上的OpenData 147 8.4.3 編程馬拉松 147 8.5 小結 148 第9 章 Stack Overflow 項目 149 9.1 第一步:關于Stack Overflow 的問題 149 9.2 第二步:收集并存儲Stack Overflow數(shù)據(jù) 151 9.2.1 下載Stack Overflow 數(shù)據(jù) 151 9.2.2 文件解壓 152 9.2.3 創(chuàng)建MySQL 數(shù)據(jù)表并加載數(shù)據(jù) 152 9.2.4 構建測試表 154 9.3 第三步:數(shù)據(jù)清洗 156 9.3.1 創(chuàng)建新的數(shù)據(jù)表 157 9.3.2 提取URL 并填寫新數(shù)據(jù)表 158 9.3.3 提取代碼并填寫新表 159 9.4 第四步:數(shù)據(jù)分析 161 9.4.1 哪些代碼分享網(wǎng)站最為流行 161 9.4.2 問題和答案中的代碼分享網(wǎng)站都有哪些 162 9.4.3 提交內(nèi)容會同時包含代碼分享URL 和程序源代碼嗎 165 9.5 第五步:數(shù)據(jù)可視化 166 9.6 第六步:問題解析 169 9.7 從測試表轉向完整數(shù)據(jù)表 169 9.8 小結 170 第10 章項目 171 10.1 第一步:關于推文歸檔數(shù)據(jù)的問題 171 10.2 第二步:收集數(shù)據(jù) 172 10.2.1 下載并提取弗格森事件的數(shù)據(jù)文件 173 10.2.2 創(chuàng)建一個測試用的文件 174 10.2.3 處理推文ID 174 10.3 第三步:數(shù)據(jù)清洗 179 10.3.1 創(chuàng)建數(shù)據(jù)表 179 10.3.2 用Python 為新表填充數(shù)據(jù) 180 10.4 第四步:簡單的數(shù)據(jù)分析 182 10.5 第五步:數(shù)據(jù)可視化 183 10.6 第六步:問題解析 186 10.7 把處理過程應用到全數(shù)據(jù)量(非測試用)數(shù)據(jù)表 186 10.8 小結 187
使用說明
1、下載并解壓,得出pdf文件2、如果打不開本文件,請務必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進行閱讀
- 下載地址
發(fā)表評論
0條評論軟件排行榜
熱門推薦
- 南方Plus電腦版 v11.8.027.22M / 簡體中文
- 得間免費小說電腦版 v5.2.7.172.56M / 簡體中文
- 網(wǎng)易新聞電腦版 v112.697.63M / 簡體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡體中文
- 數(shù)據(jù)挖掘導論 官方版61.61M / 簡體中文
- 吉利博瑞用戶手冊 pdf高清版57.89M / 簡體中文
- 開源閱讀電腦版 v3.2517.96M / 簡體中文
- 京東讀書電腦版 v1.13.4官方版1.98M / 簡體中文
- docker入門實戰(zhàn) pdf完整版1.38M / 簡體中文
- Scala程序設計第二版 pdf高清完整版15.83M / 簡體中文