用python寫網(wǎng)絡(luò)爬蟲是一本用Python進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)挖掘的代表著作,由澳大利亞程序員理查德·勞森(Richard Lawson)編著。本書講解了從靜態(tài)頁(yè)面爬取數(shù)據(jù)的方法以及使用緩存來(lái)管理服務(wù)器負(fù)載的方法。此外,還介紹了如何使用AJAX URL和Firebug擴(kuò)展來(lái)爬取數(shù)據(jù),以及有關(guān)爬取技術(shù)的更多真相,比如使用瀏覽器渲染、管理cookie、通過(guò)提交表單從受驗(yàn)證碼保護(hù)的復(fù)雜網(wǎng)站中抽取數(shù)據(jù)等,能夠幫助python人員更好的學(xué)習(xí)常握好python編程。用python寫網(wǎng)絡(luò)爬蟲主要內(nèi)容包括通過(guò)跟蹤鏈接來(lái)爬取網(wǎng)站;使用lxml從頁(yè)面中抽取數(shù)據(jù);構(gòu)建線程爬蟲來(lái)并行爬取頁(yè)面;解析依賴于JavaScript的網(wǎng)站;與表單和會(huì)話進(jìn)行交互;解決受保護(hù)頁(yè)面的驗(yàn)證碼問(wèn)題等等,歡迎免費(fèi)下載閱讀。
內(nèi)容介紹
《用python寫網(wǎng)絡(luò)爬蟲》講解了如何使用Python來(lái)編寫網(wǎng)絡(luò)爬蟲程序,內(nèi)容包括網(wǎng)絡(luò)爬蟲簡(jiǎn)介,從頁(yè)面中抓取數(shù)據(jù)的三種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和進(jìn)程來(lái)進(jìn)行并發(fā)抓取,如何抓取動(dòng)態(tài)頁(yè)面中的內(nèi)容,與表單進(jìn)行交互,處理頁(yè)面中的驗(yàn)證碼問(wèn)題,以及使用Scarpy和Portia來(lái)進(jìn)行數(shù)據(jù)抓取,使用本書介紹的數(shù)據(jù)抓取技術(shù)對(duì)幾個(gè)真實(shí)的網(wǎng)站進(jìn)行了抓取,旨在幫助讀者活學(xué)活用書中介紹的技術(shù),能夠適合有一定Python編程經(jīng)驗(yàn),而且對(duì)爬蟲技術(shù)感興趣的讀者閱讀。
用python寫網(wǎng)絡(luò)爬蟲章節(jié)目錄
第1章 網(wǎng)絡(luò)爬蟲簡(jiǎn)介 1
1.1 網(wǎng)絡(luò)爬蟲何時(shí)有用 1
1.2 網(wǎng)絡(luò)爬蟲是否合法 2
1.3 背景調(diào)研 3
1.3.1 檢查robots.txt 3
1.3.2 檢查網(wǎng)站地圖 4
1.3.3 估算網(wǎng)站大小 5
1.3.4 識(shí)別網(wǎng)站所用技術(shù) 7
1.3.5 尋找網(wǎng)站所有者 7
1.4 編寫第一個(gè)網(wǎng)絡(luò)爬蟲 8
1.4.1 下載網(wǎng)頁(yè) 9
1.4.2 網(wǎng)站地圖爬蟲 12
1.4.3 ID遍歷爬蟲 13
1.4.4 鏈接爬蟲 15
1.5 本章小結(jié) 22
第2章 數(shù)據(jù)抓取 23
2.1 分析網(wǎng)頁(yè) 23
2.2 三種網(wǎng)頁(yè)抓取方法 26
2.2.1 正則表達(dá)式 26
2.2.2 Beautiful Soup 28
2.2.3 Lxml 30
2.2.4 性能對(duì)比 32
2.2.5 結(jié)論 35
2.2.6 為鏈接爬蟲添加抓取回調(diào) 35
2.3 本章小結(jié) 38
第3章 下載緩存 39
3.1 為鏈接爬蟲添加緩存支持 39
3.2 磁盤緩存 42
3.2.1 實(shí)現(xiàn) 44
3.2.2 緩存測(cè)試 46
3.2.3 節(jié)省磁盤空間 46
3.2.4 清理過(guò)期數(shù)據(jù) 47
3.2.5 缺點(diǎn) 48
3.3 數(shù)據(jù)庫(kù)緩存 49
3.3.1 NoSQL是什么 50
3.3.2 安裝MongoDB 50
3.3.3 MongoDB概述 50
3.3.4 MongoDB緩存實(shí)現(xiàn) 52
3.3.5 壓縮 54
3.3.6 緩存測(cè)試 54
3.4 本章小結(jié) 55
第4章 并發(fā)下載 57
4.1 100萬(wàn)個(gè)網(wǎng)頁(yè) 57
4.2 串行爬蟲 60
4.3 多線程爬蟲 60
4.3.1 線程和進(jìn)程如何工作 61
4.3.2 實(shí)現(xiàn) 61
4.3.3 多進(jìn)程爬蟲 63
4.4 性能 67
4.5 本章小結(jié) 68
第5章 動(dòng)態(tài)內(nèi)容 69
5.1 動(dòng)態(tài)網(wǎng)頁(yè)示例 69
5.2 對(duì)動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)行逆向工程 72
5.3 渲染動(dòng)態(tài)網(wǎng)頁(yè) 77
5.3.1 PyQt還是PySide 78
5.3.2 執(zhí)行JavaScript 78
5.3.3 使用WebKit與網(wǎng)站交互 80
5.3.4 Selenium 85
5.4 本章小結(jié) 88
第6章 表單交互 89
6.1 登錄表單 90
6.2 支持內(nèi)容更新的登錄腳本擴(kuò)展 97
6.3 使用Mechanize模塊實(shí)現(xiàn)自動(dòng)化表單處理 100
6.4 本章小結(jié) 102
第7章 驗(yàn)證碼處理 103
7.1 注冊(cè)賬號(hào) 103
7.2 光學(xué)字符識(shí)別 106
7.3 處理復(fù)雜驗(yàn)證碼 111
7.3.1 使用驗(yàn)證碼處理服務(wù) 112
7.3.2 9kw入門 112
7.3.3 與注冊(cè)功能集成 119
7.4 本章小結(jié) 120
第8章 Scrapy 121
8.1 安裝 121
8.2 啟動(dòng)項(xiàng)目 122
8.2.1 定義模型 123
8.2.2 創(chuàng)建爬蟲 124
8.2.3 使用shell命令抓取 128
8.2.4 檢查結(jié)果 129
8.2.5 中斷與恢復(fù)爬蟲 132
8.3 使用Portia編寫可視化爬蟲 133
8.3.1 安裝 133
8.3.2 標(biāo)注 136
8.3.3 優(yōu)化爬蟲 138
8.3.4 檢查結(jié)果 140
8.4 使用Scrapely實(shí)現(xiàn)自動(dòng)化抓取 141
8.5 本章小結(jié) 142
第9章 總結(jié) 143
9.1 Google搜索引擎 143
9.2.1 網(wǎng)站 148
9.2.2 API 150
9.3 Gap 151
9.4 寶馬 153
9.5 本章小結(jié) 157
免責(zé)聲明:
來(lái)源于網(wǎng)絡(luò),僅用于分享知識(shí),學(xué)習(xí)和交流!請(qǐng)下載完在24小時(shí)內(nèi)刪除。
禁用于商業(yè)用途!請(qǐng)購(gòu)買正版,謝謝合作。
使用說(shuō)明
1、下載并解壓,得出pdf文件
2、如果在電腦上打不開pdf文件,別著急,那么您需要先在電腦上下載一個(gè)pdf閱讀軟件
3、有pdf閱讀文件直接雙擊即可打開pdf文件
- 下載地址
- 本地下載通道:
- 浙江電信下載
- 北京聯(lián)通下載
- 江蘇電信下載
- 廣東電信下載
有問(wèn)題? 點(diǎn)此報(bào)錯(cuò)
發(fā)表評(píng)論
1人參與,1條評(píng)論- 第1樓廣東省廣州市珠江寬頻網(wǎng)友發(fā)表于: 2020-05-09 20:38:37
- 老師推薦,很好0蓋樓(回復(fù))
軟件排行榜
熱門推薦
- 有柿電腦版 v11.5.684.06M / 簡(jiǎn)體中文
- 得間免費(fèi)小說(shuō)電腦版 v5.2.7.172.56M / 簡(jiǎn)體中文
- 瀟湘書院電腦版 v2.3.11.888官方版49.65M / 簡(jiǎn)體中文
- 吉利博瑞用戶手冊(cè) pdf高清版57.89M / 簡(jiǎn)體中文
- 開源閱讀電腦版 v3.2517.96M / 簡(jiǎn)體中文
- 未公開的Oracle數(shù)據(jù)庫(kù)秘密 迪貝斯pdf掃描版34.69M / 簡(jiǎn)體中文
- PHP語(yǔ)言精粹電子書 pdf掃描版25.72M / 簡(jiǎn)體中文
- linux常用命令大全 chm版1.48M / 簡(jiǎn)體中文
- docker入門實(shí)戰(zhàn) pdf完整版1.38M / 簡(jiǎn)體中文
- C++黑客編程揭秘與防范第2版 冀云pdf掃描版54.58M / 簡(jiǎn)體中文