數(shù)據(jù)科學(xué)實(shí)戰(zhàn)是一本大數(shù)據(jù)時(shí)代的實(shí)戰(zhàn)寶典,由舒特編著,馮凌秉、王群鋒翻譯。全書匯集了谷歌、微軟、eBay等公司一線數(shù)據(jù)科學(xué)家真知灼見,揭秘?cái)?shù)據(jù)科學(xué)相關(guān)的新算法、方法與模型。作者既介紹實(shí)踐應(yīng)用,也提出理論規(guī)范。一方面,介紹了一些業(yè)內(nèi)頂尖數(shù)據(jù)科學(xué)家的日常工作內(nèi)容,帶大家看看他們在實(shí)踐中如何應(yīng)用數(shù)據(jù)科學(xué)知識(shí),借此管中窺豹,了解這一學(xué)科目前的應(yīng)用現(xiàn)狀。
另一方面,我們還將從學(xué)術(shù)角度去定義數(shù)據(jù)科學(xué)的研究范疇。數(shù)據(jù)科學(xué)實(shí)戰(zhàn)會(huì)多角度全方位、深入地介紹數(shù)據(jù)科學(xué)。它是對(duì)現(xiàn)有數(shù)據(jù)學(xué)科領(lǐng)域的縱覽,試圖為這一學(xué)科勾勒出一幅全景圖。不僅可供不具備相關(guān)領(lǐng)域知識(shí)的初學(xué)者真正了解數(shù)據(jù)科學(xué),而且也是熟悉線性代數(shù)、概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等主題的人士開闊視野、提升實(shí)戰(zhàn)技能的優(yōu)秀指南。
內(nèi)容介紹
本書脫胎于哥倫比亞大學(xué)“數(shù)據(jù)科學(xué)導(dǎo)論”課程的教學(xué)講義,它界定了數(shù)據(jù)科學(xué)的研究范疇,是一本注重人文精神,多角度、全方位、深入介紹數(shù)據(jù)科學(xué)的實(shí)用指南,堪稱大數(shù)據(jù)時(shí)代的實(shí)戰(zhàn)寶典。本書旨在讓讀者能夠舉一反三地解決重要問題,內(nèi)容包括:數(shù)據(jù)科學(xué)及工作流程、統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)算法、信息提取與統(tǒng)計(jì)變量創(chuàng)建、數(shù)據(jù)可視化與社交網(wǎng)絡(luò)、預(yù)測模型與因果分析、數(shù)據(jù)預(yù)處理與工程方法。另外,本書還將帶領(lǐng)讀者展望數(shù)據(jù)科學(xué)未來的發(fā)展。
作者簡介
Rachel Schutt
美國新聞集團(tuán)旗下數(shù)據(jù)科學(xué)部門高級(jí)副總裁、哥倫比亞大學(xué)統(tǒng)計(jì)系兼職教授、約翰遜實(shí)驗(yàn)室高級(jí)研究科學(xué)家,同時(shí)也是哥倫比亞大學(xué)數(shù)據(jù)科學(xué)及工程研究所教育委員會(huì)的發(fā)起人之一。她曾在谷歌研究院工作數(shù)年,負(fù)責(zé)設(shè)計(jì)算法原型并通過建模理解用戶行為。
Cathy O'Neil
約翰遜實(shí)驗(yàn)室高級(jí)數(shù)據(jù)科學(xué)家、哈佛大學(xué)數(shù)學(xué)博士、麻省理工學(xué)院數(shù)學(xué)系博士后、巴納德學(xué)院教授,曾發(fā)表過大量算術(shù)代數(shù)幾何方面的論文。他曾在著名的全球投資管理公司D.E. Shaw擔(dān)任對(duì)沖基金金融師,后加入專門評(píng)估銀行和對(duì)沖基金風(fēng)險(xiǎn)的軟件公司RiskMetrics,個(gè)人博客:mathbabe.org。
譯者簡介:
馮凌秉
澳大利亞國立大學(xué)統(tǒng)計(jì)學(xué)博士,本科和研究生分別畢業(yè)于中南財(cái)經(jīng)政法大學(xué)和中國人民大學(xué)?,F(xiàn)在,他任職于江西財(cái)經(jīng)大學(xué)金融管理國際研究院,任講師、碩士生導(dǎo)師,研究方向?yàn)閼?yīng)用統(tǒng)計(jì)與金融計(jì)量。
王群鋒
畢業(yè)于西安電子科技大學(xué),現(xiàn)任職于IBM西安研發(fā)中心,從事下一代統(tǒng)計(jì)預(yù)測軟件的開發(fā)運(yùn)維工作。
數(shù)據(jù)科學(xué)實(shí)戰(zhàn)pdf章節(jié)目錄
作者介紹 XII
關(guān)于封面圖 XIII
前言 XIV
第1章 簡介:什么是數(shù)據(jù)科學(xué)
1.1 大數(shù)據(jù)和數(shù)據(jù)科學(xué)的喧囂
1.2 沖出迷霧
1.3 為什么是現(xiàn)在
1.4 數(shù)據(jù)科學(xué)的現(xiàn)狀和歷史
1.5 數(shù)據(jù)科學(xué)的知識(shí)結(jié)構(gòu)
1.6 思維實(shí)驗(yàn):元定義
1.7 什么是數(shù)據(jù)科學(xué)家
1.7.1 學(xué)術(shù)界對(duì)數(shù)據(jù)科學(xué)家的定義
1.7.2 工業(yè)界對(duì)數(shù)據(jù)科學(xué)家的定義
第2章 統(tǒng)計(jì)推斷、探索性數(shù)據(jù)分析和數(shù)據(jù)科學(xué)工作流程
2.1 大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)思考
2.1.1 統(tǒng)計(jì)推斷
2.1.2 總體和樣本
2.1.3 大數(shù)據(jù)的總體和樣本
2.1.4 大數(shù)據(jù)意味著大膽的假設(shè)
2.1.5 建模
2.2 探索性數(shù)據(jù)分析
2.2.1 探索性數(shù)據(jù)分析的哲學(xué)
2.2.2 練習(xí):探索性數(shù)據(jù)分析
2.3 數(shù)據(jù)科學(xué)的工作流程
2.4 思維實(shí)驗(yàn):如何模擬混沌
2.5 案例學(xué)習(xí):RealDirect
2.5.1 RealDirect是如何賺錢的
2.5.2 練一練:RealDirect公司的數(shù)據(jù)策略
第3章 算法
3.1 機(jī)器學(xué)習(xí)算法
3.2 三大基本算法
3.2.1 線性回歸模型
3.2.2 k 近鄰模型(k-NN)
3.2.3 k 均值算法
3.3 練習(xí):機(jī)器學(xué)習(xí)算法基礎(chǔ)
3.4 總結(jié)
3.5 思維實(shí)驗(yàn):關(guān)于統(tǒng)計(jì)學(xué)家的自動(dòng)化
第4章 垃圾郵件過濾器、樸素貝葉斯與數(shù)據(jù)清理
4.1 思維實(shí)驗(yàn):從實(shí)例中學(xué)習(xí)
4.1.1 線性回歸為何不適用
4.1.2 k 近鄰效果如何
4.2 樸素貝葉斯模型
4.2.1 貝葉斯法則
4.2.2 個(gè)別單詞的過濾器
4.2.3 直通樸素貝葉斯
4.3 拉普拉斯平滑法
4.4 對(duì)比樸素貝葉斯和k 近鄰
4.5 Bash代碼示例
4.6 網(wǎng)頁抓取:API和其他工具
4.7 Jake的練習(xí)題:文章分類問題中的樸素貝葉斯模型
第5章 邏輯回歸
5.1 思維實(shí)驗(yàn)
5.2 分類器
5.2.1 運(yùn)行時(shí)間
5.2.2 你自己
5.2.3 模型的可解釋性
5.2.4 可擴(kuò)展性
5.3 邏輯回歸:一個(gè)來自M6D 的真實(shí)案例研究
5.3.1 點(diǎn)擊模型
5.3.2 模型背后
5.3.3 α和β 的參數(shù)估計(jì)
5.3.4 牛頓法
5.3.5 隨機(jī)梯度下降法
5.3.6 操練
5.3.7 模型評(píng)價(jià)
5.4 練習(xí)題
第6章 時(shí)間戳數(shù)據(jù)與金融建模
6.1 Kyle Teague與GetGlue公司
6.2 時(shí)間戳
6.2.1 探索性數(shù)據(jù)分析(EDA)
6.2.2 指標(biāo)和新變量
6.2.3 下一步怎么做
6.3 輪到Cathy O'Neill了
6.4 思維實(shí)驗(yàn)
6.5 金融建模
6.5.1 樣本期內(nèi)外以及因果關(guān)系
6.5.2 金融數(shù)據(jù)處理
6.5.3 對(duì)數(shù)收益率
6.5.4 實(shí)例:標(biāo)準(zhǔn)普爾指數(shù)
6.5.5 如何衡量波動(dòng)率
6.5.6 指數(shù)平滑法
6.5.7 金融模型的反饋
6.5.8 聊聊回歸模型
6.5.9 先驗(yàn)信息量
6.5.10 一個(gè)小例子
6.6 練習(xí):GetGlue提供的時(shí)間戳數(shù)據(jù)
第7章 從數(shù)據(jù)到結(jié)論
7.1 William Cukierski
7.1.1 背景介紹:數(shù)據(jù)科學(xué)競賽
7.1.2 背景介紹:眾包模式
7.2 Kaggle模式
7.2.1 Kaggle的參賽者
7.2.2 Kaggle的客戶
7.3 思維實(shí)驗(yàn):關(guān)于作業(yè)自動(dòng)評(píng)分系統(tǒng)
7.4 特征選擇
7.4.1 例子:留住用戶
7.4.2 過濾型
7.4.3 包裝型
7.4.4 決策樹與嵌入型變量選擇
7.4.5 熵
7.4.6 決策樹算法
7.4.7 如何在決策樹模型中處理連續(xù)性變量
7.4.8 隨機(jī)森林
7.4.9 用戶黏性:模型的預(yù)測能力與可解釋性
7.5 David Huffaker:谷歌社會(huì)學(xué)研究的新方法
7.5.1 從描述性統(tǒng)計(jì)到預(yù)測模型
7.5.2 谷歌的社交研究
7.5.3 隱私保護(hù)
7.5.4 思維實(shí)驗(yàn):如何消除用戶的顧慮
第8章 構(gòu)建面向大量用戶的推薦引擎
8.1 一個(gè)真實(shí)的推薦引擎
8.1.1 最近鄰算法回顧
8.1.2 最近鄰模型的已知問題
8.1.3 超越近鄰模型:基于機(jī)器學(xué)習(xí)的分類模型
8.1.4 高維度問題
8.1.5 奇異值分解(SVD)
8.1.6 關(guān)于SVD的重要特性
8.1.7 主成分分析(PCA)
8.1.8 交替最小二乘法
8.1.9 固定矩陣V,更新矩陣U
8.1.10 關(guān)于這些算法的一點(diǎn)思考
8.2 思維實(shí)驗(yàn):如何過濾模型中的泡沫
8.3 練習(xí):搭建自己的推薦系統(tǒng)
第9章 數(shù)據(jù)可視化與欺詐偵測
9.1 數(shù)據(jù)可視化的歷史
9.1.1 Gabriel Tarde
9.1.2 Mark 的思維實(shí)驗(yàn)
9.2 到底什么是數(shù)據(jù)科學(xué)
9.2.1 Processing
9.2.2 Franco Moretti
9.3 一個(gè)數(shù)據(jù)可視化的方案實(shí)例
9.4 Mark 的數(shù)據(jù)可視化項(xiàng)目
9.4.1 《紐約時(shí)報(bào)》大廳里的可視化:Moveable Type
9.4.2 屏幕上的生命:Cascade可視化項(xiàng)目
9.4.3 Cronkite廣場項(xiàng)目
9.4.4 eBay與圖書網(wǎng)購
9.4.5 公共劇場里的"莎士比亞機(jī)"
9.4.6 這些展覽的目的是什么
9.5 數(shù)據(jù)科學(xué)和風(fēng)險(xiǎn)
9.5.1 關(guān)于Square公司
9.5.2 支付風(fēng)險(xiǎn)
9.5.3 模型效果的評(píng)估問題
9.5.4 建模小貼士
9.6 數(shù)據(jù)可視化在Square
9.7 Ian的思維實(shí)驗(yàn)
9.8 關(guān)于數(shù)據(jù)可視化
第10章 社交網(wǎng)絡(luò)與數(shù)據(jù)新聞學(xué)
10.1 Morning Analytics與社交網(wǎng)絡(luò)
10.2 社交網(wǎng)絡(luò)分析
10.3 關(guān)于社交網(wǎng)絡(luò)分析的相關(guān)術(shù)語
10.3.1 如何衡量向心性
10.3.2 使用哪種向心性測度
10.4 思維實(shí)驗(yàn)
10.5 Morningside Analytics
10.6 從統(tǒng)計(jì)學(xué)的角度看社交網(wǎng)絡(luò)分析
10.6.1 網(wǎng)絡(luò)的表示方法與特征值向心度
10.6.2 隨機(jī)網(wǎng)絡(luò)的第一個(gè)例子:Erdos-Renyi模型
10.6.3 隨機(jī)網(wǎng)絡(luò)的第二個(gè)例子:指數(shù)隨機(jī)網(wǎng)絡(luò)圖模型
10.7 數(shù)據(jù)新聞學(xué)
10.7.1 關(guān)于數(shù)據(jù)新聞學(xué)的歷史回顧
10.7.2 數(shù)據(jù)新聞報(bào)告的寫作:來自專家的建議
第11章 因果關(guān)系研究
11.1 相關(guān)性并不代表因果關(guān)系
11.1.1 對(duì)因果關(guān)系提問
11.1.2 干擾因子:一個(gè)關(guān)于在線約會(huì)網(wǎng)站的例子
11.2 OK Cupid的發(fā)現(xiàn)
11.3 黃金準(zhǔn)則:隨機(jī)化臨床實(shí)驗(yàn)
11.4 A/B測試
11.5 退一步求其次:關(guān)于觀察性研究
11.5.1 辛普森悖論
11.5.2 魯賓因果關(guān)系模型
11.5.3 因果關(guān)系的可視化
11.5.4 定義:因果關(guān)系
11.6 三個(gè)小建議
第12章 流行病學(xué)
12.1 Madigan的學(xué)術(shù)背景
12.2 思維實(shí)驗(yàn)
12.3 統(tǒng)計(jì)學(xué)在現(xiàn)代
12.4 醫(yī)學(xué)文獻(xiàn)與觀察性研究
12.5 分層法不解決干擾因子的問題
12.6 就沒有更好的辦法嗎
12.7 研究性實(shí)驗(yàn)(OMOP)
12.8 最后的思維實(shí)驗(yàn)
第13章 從競賽中學(xué)到的:數(shù)據(jù)泄漏和模型評(píng)價(jià)
13.1 Claudia作為數(shù)據(jù)科學(xué)家的知識(shí)結(jié)構(gòu)
13.1.1 首席數(shù)據(jù)科學(xué)家的生活
13.1.2 作為一名女?dāng)?shù)據(jù)科學(xué)家
13.2 數(shù)據(jù)挖掘競賽
13.3 如何成為出色的建模者
13.4 數(shù)據(jù)泄漏
13.4.1 市場預(yù)測
13.4.2 亞馬遜案例學(xué)習(xí):出手闊綽的顧客
13.4.3 珠寶抽樣問題
13.4.4 IBM 客戶鎖定
13.4.5 乳腺癌檢測
13.4.6 預(yù)測肺炎
13.5 如何避免數(shù)據(jù)泄漏
13.6 模型評(píng)價(jià)
13.6.1 準(zhǔn)確度重要嗎
13.6.2 概率的重要性,不是非0 即1
13.7 如何選擇算法
13.8 最后一個(gè)例子
13.9 臨別感言
第14章 數(shù)據(jù)工程:MapReduce、Pregel、Hadoop
14.1 關(guān)于David Crawshaw
14.2 思維實(shí)驗(yàn)
14.3 MapReduce
14.4 單詞頻率問題
14.5 其他MapReduce案例
14.6 Pregel
14.7 關(guān)于Josh Wills
14.8 思維實(shí)驗(yàn)
14.9 給數(shù)據(jù)科學(xué)家的話
14.9.1 數(shù)據(jù)豐富和數(shù)據(jù)匱乏
14.9.2 設(shè)計(jì)模型
14.10 算算Hadoop的經(jīng)濟(jì)賬
14.10.1 Hadoop簡介
14.10.2 Cloudera
14.11 Josh 的工作流程
14.12 如何開始使用Hadoop
第15章 聽聽學(xué)生們怎么說
15.1 重在過程
15.2 不再簡單
15.3 援助之手
15.4 殊途同歸
15.5 逢山開路,遇水架橋
15.6 作品展示
第16章 下一代數(shù)據(jù)科學(xué)家、自大狂和職業(yè)道德
16.1 前面都講了些什么
16.2 什么是數(shù)據(jù)科學(xué)(再問一次)
16.3 誰是下一代的數(shù)據(jù)科學(xué)家
16.3.1 成為解決問題的人
16.3.2 培養(yǎng)軟技能
16.3.3 成為提問者
16.4 做一個(gè)有道德感的數(shù)據(jù)科學(xué)家
16.5 對(duì)于職業(yè)生涯的建議
數(shù)據(jù)科學(xué)實(shí)戰(zhàn)pdf使用說明
1、下載并解壓,得出pdf文件
2、如果打不開本文件,請(qǐng)務(wù)必下載pdf閱讀器
3、安裝后,在打開解壓得出的pdf文件
4、雙擊進(jìn)行閱讀試讀
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
0條評(píng)論軟件排行榜
熱門推薦
- 南方Plus電腦版 v12.0.027.06M / 簡體中文
- 得間免費(fèi)小說電腦版 v5.3.1.372.86M / 簡體中文
- 開源閱讀電腦版 v3.2517.96M / 簡體中文
- 數(shù)據(jù)挖掘?qū)д?官方版61.61M / 簡體中文
- 吉利博瑞用戶手冊 pdf高清版57.89M / 簡體中文
- linux常用命令大全 chm版1.48M / 簡體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡體中文
- C++多核高級(jí)編程 修斯pdf掃描版57.21M / 簡體中文
- HotSpot實(shí)戰(zhàn)(陳濤著) 中文pdf掃描版82M / 簡體中文