Python網路爬蟲－－大數據擷取、清洗、儲存與分析王者歸來（第二版）

{{ _getLangText('m_detailInformation_goodsAuthorText') }}洪錦魁

{{ _getLangText('m_detailInformation_goodsPublisherText') }}深智

2021年10月19日

ISBN：9789860776478

第二版和第一版做比較，增加下列內容：

★：全書增加約50個程式實例

★：網路趨勢，了解輿情

★：網路關鍵字查詢

★：YouBike資訊

★：國際金融資料查詢

★：博客來圖書排行榜

★：中央氣象局

★：租屋網站

★：生活應用

下列是本書有關網路爬蟲知識的主要內容：

★：認識搜尋引擎與網路爬蟲

★：認識約定成俗的協議robots.txt

★：從零開始解析HTML網頁

★：認識與使用Chrome開發人員環境解析網頁

★：認識Python內建urllib、urllib2模組，同時介紹好用的requests模組

★：說明lxml模組

★：XPath方法解說

★：css定位網頁元素

★：Cookie觀念

★：自動填寫表單

★：使用IP代理服務與實作

★：偵測IP

★：更進一步解說更新的模組Requests-HTML

★：認識適用大型爬蟲框架的Scrapy模組

在書籍內容，筆者設計爬蟲程式探索下列相關網站：

☆：國際與國內股市資訊

☆：基金資訊

☆：股市數據

☆：人力銀行

☆：維基網站

☆：主流媒體網站

☆：政府開放數據網站

☆：YouBike服務網站

☆：PTT網站

☆：電影網站

☆：星座網站

☆：小說網站

☆：博客來網站

☆：中央氣象局

☆：露天拍賣網站

☆：httpbin網站

☆：python.org網站

☆：github.com網站

☆：ipstack.com網站API實作

☆：Google API實作

☆：Facebook API實作

探索網站成功後，筆者也說明下列如何下載或儲存不同資料格式的數據：

★：CSV檔案格式

★：JSON檔案格式

★：XML、Pickle

★：Excel

★：SQLite

在設計爬蟲階段我們可能會碰上一些技術問題，筆者也以實例解決下列相關問題：

☆：URL編碼與中文網址觀念

☆：將中文儲存在JSON格式檔案

☆：亂碼處理

☆：簡體中文在繁體中文Windows環境資料下載與儲存

☆：解析Ajax動態加載網頁，獲得更多頁次資料

☆：使用Chromium瀏覽器協助Ajax動態加載

{{ isMore ? _getLangText("m_detailIntroduction_goodsIntroductionHideText") : _getLangText("m_detailIntroduction_goodsIntroductionShowText") }}

{{ _getLangText('m_asideSeriesBookListBut_moreText') }}>

一個人的極境旅行──南極大陸．北極海

洪錦魁

Excel 2013教學範本（適用SiliconStone認證考試教材）

洪錦魁

有圖有真相－－逐介面精通Word 2013

洪錦魁

Python超零基礎最快樂學習之路－－王者歸來

洪錦魁

Python網路爬蟲－－大數據擷取、清洗、儲存與分析王者歸來（第二版）

{{_getLangText("m_detailIntroduction_goodsIntroductionText") }}

{{ _getLangText('m_detailAuthorBookList_titleText') }}

Python網路爬蟲－－大數據擷取、清洗、儲存與分析 王者歸來（第二版）

{{_getLangText("m_detailIntroduction_goodsIntroductionText") }}

{{ _getLangText('m_detailAuthorBookList_titleText') }}

Python網路爬蟲－－大數據擷取、清洗、儲存與分析王者歸來（第二版）