跳到主要內容

發表文章

目前顯示的是 8月, 2019的文章

python網路爬蟲輕鬆取得氣候資料(1)

網路爬蟲可以簡單理解為,透過程式自動化截取網路資料的一個技術,利用程式執行自動化原本需要人工重複點選貼上的動作。 舉個實際的例子,如果要取得近 10 年台灣各測站每日觀測的氣候資料,曾搜尋過的人會知道,目前網路上開放的資料中沒有一個完整的檔案收錄有這麼齊全的資料。 中央氣象局提供一個平台 CODiS (CWB Odservation Data Inquire System) ,裡面收錄台灣從 2010 年開始的各測站氣候數據,但其實使用上有一些限制,使用者無法一次下載全部的資料。 CODiS 平台一開始讓使用者選擇測站、資料格式以及資料月份後,會跳到下面第二張圖的畫面,呈現該測站當月的每日氣候資料。 大量且重複性的工作 看到這裡大家可能會覺得,這沒什麼啊 ! 畫面上還可以直接下載 CSV 檔,但是事情如果這麼容易那就好了,全台灣有 500 多個測站,每個測站從 2010 至 2019 每個月都有一份 CSV 報表要下載,雖然各測站設立的時間有些落差,但我們初估一下需要下載的資料檔數量, 500 個測站 *10( 年 )*12( 月 ) ,估計有 6 萬個檔案要下載,如果透過人工一個一個點選,那是相當龐大的數量,曠日廢時 。如果不要用苦力活的方式,中央氣象局提供了另一個選擇,付費取得資料。一般情況就只有這兩種情況可以做抉擇,但是如果會使用網路爬蟲,就硬生生比別人多了一個更好的選項。 網路爬蟲事半功倍 6 萬個資料檔,人力需耗費好幾天的時間下載,網路爬蟲只需花幾個小時撰寫程式,剩下的就只需等待程式完成執行。 網路充斥著大量的資訊,爬蟲可以幫助我們輕鬆取得這些資訊,例如收集指定商品的價格,建立比價資訊、股票等即時資訊的取得與追蹤,或是爬取相關社群網站取得最新熱門話題等,爬蟲讓我們可以省下大量的時間與精力去處理其他事情。這些資訊雖然皆為公開資訊,但很多網站並不喜歡他們的資料被輕易的爬走,因此有些網站會設立一些門檻,或是將資訊藏在比較深的頁面,增加爬蟲的困難度。 下一篇我們就實際以 CODiS (CWB Odservation Data Inquire System) 平台的資料進行網路爬蟲。 參考網址 CODiS 平台

視覺化歷史演變

由剛開始早期的摸索發現坊間視覺化的圖表除了透漏資訊及資料訊息外,也呈現了歷史的痕跡,從歷史脈絡中發現不同時代的特點及意義,以下整理讀書心得。  視覺化釋義 -具體是從 1987 年, 美國國家科學基金會 招開「科學計算研討會」報告提及 《 Visualization in Scientific Computing 》 , 「科學計算之中的視覺化」演變成 「 Scientific Visualization 」 ,「科學視覺化」。 -而後 「資訊視覺化」 ( Information visualization ) ,逐漸開始興起,主要是對於抽象的異質性資料集的分析工作提供支援。 -現在則以 「資料科學化」 (Data visualization) 最為統稱,涵蓋「科學視覺化」、「資訊視覺化」及「可視化分析」等三領域。 視覺化簡史 大部份的書都是以時間軸描述視覺化史發展,有意思的是各時代的分類定義卻都不相同,每本書從不同角度切入,讓視覺化的感受更立體也明顯。 ⧭17 世紀前        人類史上第一幅城市交通圖 - 羅馬城交通狀況:        以手動呈現展示重要資訊。    ⧭ 18 世紀    統計圖型學的繁榮時期,格蘭政治經濟學 作家普萊菲   ( William Playfair )出版了 《商業與政治圖集》 (The       Commercial and Political Atlas) ,描述經濟資料與數量,及《統計祈禱書》 (Statistical Breviary) 。 《統計祈禱書》 (Statistical Breviary)        鄂圖曼土耳其帝國在歐、亞、菲三洲土地分布 。   ⧭ 19 世紀     1812-1812 拿破倫進軍莫斯科歷史事件的流程視覺化圖,由法國人 Charles Joseph Minard 繪製,他是將視覺化用於工程和統計的先驅者,當時這張圖被譽為有史以來最好的統計視覺化,個人認為這張圖同時呈現 地理位置、人數、溫度、時間及行軍路徑 等五項訊息,當之 無愧視覺化第一名的寶座非他莫屬。 以下這張圖是現代來看莫斯科和立陶宛的距離,若以當時初估 一天走八小時,我們以每