Python網路爬蟲--大數據擷取、清洗、儲存與分析 王者歸來(第二版)

{{ _getLangText('m_detailInformation_goodsAuthorText') }}洪錦魁
{{ _getLangText('m_detailInformation_goodsPublisherText') }}深智
2021年10月19日
ISBN:9789860776478
{{ _getLangText('m_detailInformation_goodsTips1Text') }}
{{ _getLangText('m_detailInformation_goodsActivityText') }}
{{ activityObj.name }}

{{_getLangText("m_detailIntroduction_goodsIntroductionText") }}

第二版和第一版做比較,增加下列內容:

★:全書增加約50個程式實例

★:網路趨勢,了解輿情

★:網路關鍵字查詢

★:YouBike資訊

★:國際金融資料查詢

★:博客來圖書排行榜

★:中央氣象局

★:租屋網站

★:生活應用


下列是本書有關網路爬蟲知識的主要內容:

★:認識搜尋引擎與網路爬蟲

★:認識約定成俗的協議robots.txt

★:從零開始解析HTML網頁

★:認識與使用Chrome開發人員環境解析網頁

★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組

★:說明lxml模組

★:XPath方法解說

★:css定位網頁元素

★:Cookie觀念

★:自動填寫表單

★:使用IP代理服務與實作

★:偵測IP

★:更進一步解說更新的模組Requests-HTML

★:認識適用大型爬蟲框架的Scrapy模組


在書籍內容,筆者設計爬蟲程式探索下列相關網站:

☆:國際與國內股市資訊

☆:基金資訊

☆:股市數據

☆:人力銀行

☆:維基網站

☆:主流媒體網站

☆:政府開放數據網站

☆:YouBike服務網站

☆:PTT網站

☆:電影網站

☆:星座網站

☆:小說網站

☆:博客來網站

☆:中央氣象局

☆:露天拍賣網站

☆:httpbin網站

☆:python.org網站

☆:github.com網站

☆:ipstack.com網站API實作

☆:Google API實作

☆:Facebook API實作


探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:

★:CSV檔案格式

★:JSON檔案格式

★:XML、Pickle

★:Excel

★:SQLite


在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:

☆:URL編碼與中文網址觀念

☆:將中文儲存在JSON格式檔案

☆:亂碼處理

☆:簡體中文在繁體中文Windows環境資料下載與儲存

☆:解析Ajax動態加載網頁,獲得更多頁次資料

☆:使用Chromium瀏覽器協助Ajax動態加載