網路爬蟲可以簡單理解為,透過程式自動化截取網路資料的一個技術,利用程式執行自動化原本需要人工重複點選貼上的動作。 舉個實際的例子,如果要取得近 10 年台灣各測站每日觀測的氣候資料,曾搜尋過的人會知道,目前網路上開放的資料中沒有一個完整的檔案收錄有這麼齊全的資料。 中央氣象局提供一個平台 CODiS (CWB Odservation Data Inquire System) ,裡面收錄台灣從 2010 年開始的各測站氣候數據,但其實使用上有一些限制,使用者無法一次下載全部的資料。 CODiS 平台一開始讓使用者選擇測站、資料格式以及資料月份後,會跳到下面第二張圖的畫面,呈現該測站當月的每日氣候資料。 大量且重複性的工作 看到這裡大家可能會覺得,這沒什麼啊 ! 畫面上還可以直接下載 CSV 檔,但是事情如果這麼容易那就好了,全台灣有 500 多個測站,每個測站從 2010 至 2019 每個月都有一份 CSV 報表要下載,雖然各測站設立的時間有些落差,但我們初估一下需要下載的資料檔數量, 500 個測站 *10( 年 )*12( 月 ) ,估計有 6 萬個檔案要下載,如果透過人工一個一個點選,那是相當龐大的數量,曠日廢時 。如果不要用苦力活的方式,中央氣象局提供了另一個選擇,付費取得資料。一般情況就只有這兩種情況可以做抉擇,但是如果會使用網路爬蟲,就硬生生比別人多了一個更好的選項。 網路爬蟲事半功倍 6 萬個資料檔,人力需耗費好幾天的時間下載,網路爬蟲只需花幾個小時撰寫程式,剩下的就只需等待程式完成執行。 網路充斥著大量的資訊,爬蟲可以幫助我們輕鬆取得這些資訊,例如收集指定商品的價格,建立比價資訊、股票等即時資訊的取得與追蹤,或是爬取相關社群網站取得最新熱門話題等,爬蟲讓我們可以省下大量的時間與精力去處理其他事情。這些資訊雖然皆為公開資訊,但很多網站並不喜歡他們的資料被輕易的爬走,因此有些網站會設立一些門檻,或是將資訊藏在比較深的頁面,增加爬蟲的困難度。 下一篇我們就實際以 CODiS (CWB Odservation Data Inquire System) 平台的資料進行網路爬蟲。 參考網址 CODiS 平台