使用Tableau 繪製

使用Tableau 繪製—地圖

這次我們使用的資料為COVID-19，資料是由約翰·霍普金斯大學(Johns Hopkins University)系統科學與工程中心（JHU CCSE）收集的，自2020年1月22日以來的（COVID-19）流行病學數據。運用此數據實作COVID-19的地圖展示。資料來源：https://data.humdata.org/dataset/novel-coronavirus-2019-ncov-cases

先至網頁處，下載資料檔，我們使用time_series_covid19_confirmed_global.csv檔案，在此資料集中還有死亡數及復原的個案數等資料，可依自己感興趣的檔案下載嘗試繪製。

Step1：修正欄位屬性與名稱。先將Province/State(地區)、Country/Region(國家)、Lat(緯度)、Long(經度)，皆設定為地理角色(GeoCoding)。

Step2：將階層變項Country/Region & Province/State 拖曳至工作表畫布中。在【欄】與【列】中會自動產生經緯度，地圖也會自動顯現，也可在【標記】工作表上看見階層符號顯現。

備註：此檔案已自動生成階層概念，固可直接套用，一般資料並無此設定，需手動設定為階層方可使用。

Step3：將最後一天的日期8/30/20拖曳至【標記】中的【大小】

日期8/30/20中的格式內建為SUM總數，代表累積至這天的患病總數量。這時可將游標指向任一國家，會同時顯現出國家名稱及個案數。

另一種作法如下：

Step1：將Lat(緯度)放入【欄】、Long(經度)放入【列】。

這裡必須將Lat(緯度) Long(經度) 兩欄位屬性設定為維度概念，內建為度量概念，因經緯度維數值呈現，故資料會內定為度量，因此需手動修改為維度。

Step2：將最後一天的日期8/30/20拖曳至【標記】中的【大小】。

現在我們學會兩種方式畫地圖，地圖強調的經緯度，因此若無經緯度需花時間整理資料檔建置欄位才能進行繪圖，一般而言若只是簡單的縣市位置則不用設置階層概念而製圖，因我們的資料屬全球屬性若設定階層概念可呈現的較完整，當然第二種做法較直觀，直接放入經緯度也是很方便的方式，只不過忘了設定維度概念，最後若想調整顏色或是加入死亡或復原個案，可自行在進行讀檔繪製。

留言

這個網誌中的熱門文章

如何快速註冊統合分析題目~以PROSPERO為例

初步檢索心中的愛當心目中有一個理想題目時，為避免地球上另一個人也同時跟你想的一樣，而且還比我們早發表，若等我們發表時才發現，當下一定很扼腕，有了註冊系統除了幫自己先占好位子，也可以同時確認這個題目是否已經有人正在做了，不用浪費時間投注在上面。很多人其實不曉得實際上到底要如何註冊，以下一起註冊吧。什麼是 PROSPERO?? PROSPERO (International prospective register of systematic reviews) 是一個國際前瞻性系統性文獻回顧評價系統，由美國國立衛生研究院 NIHR （ National Institute for Health Research ）資助，由英國約克大學 CRD(Centre of Reviews and Dissemination) 創立，針對將已完成的評價或正進行中的計畫做紀錄。目的：避免重複並減少報告偏見的機會，增加透明性。步驟流程 Step 1 ：檢索主題先確認其他人是否對這主題感興趣，有人捷足先登了嗎 ?? 也可以確認目前流行的趨勢是哪類型的研究等。 Step 2 ：註冊帳號 ID 先到 PROSPERO 官網，填寫基本資料後註冊 ID 。 Step 3 ：點選註冊文獻 review 要需先有帳號後才能註冊題目，進入頁面後依指示一步一步操作。以下是網頁步驟，依研究對象是人群還是動物選擇按鈕點選，一般我們都是人群研究，選紫色。同時須確認以下五步驟是否都經過檢驗了。第 1 步檢查納入標準。第 2 步確保您的 protocol 處於（接近）最終形式。第 3 步搜尋 PROSPERO ，以確保評論尚未被註冊。第 4 步搜尋 PROSPERO ，以確保您沒有不必要地重複由另一個團隊進行的審核或先前已註冊的審核第 5 步開始註冊 Step 4 ：點選相關事前準備工作進度。這裡有一系列問題須皆回答完，才能進行下一步...

閱讀完整內容

python與SAS資料處理-歸人與排除重複

歸人顧名思義就是將一個人多筆的資料整合，每人只留下 1 筆。通常取得的資料都是原始資料，並未經過整理。例如手上有疑份顧客購物紀錄，裡面有每個顧客在這 1 年內的每筆消費紀錄，這是一份以每次消費紀錄為 1 筆的紀錄形式，所以一個人可以有多筆的消費紀錄。當我們想要知道這些消費紀錄源自於多少顧客的購買時，這時候就需要用到歸人的概念，將資料轉換為每一個人只有 1 筆資料的紀錄形式 ( 如下圖所示 ) 。以 SAS 進行資料歸人歸人留 1 筆消費紀錄 proc sort data =cost; by ID time; run ; /* 在規筆前依照 ID 跟消費日期做排序 */ data cost_1; set cost; by ID; if first.id; run ; /* 保留第一筆資料 */ 之前已經有針對 proc sort 的排序語法進行說明，有需要可參考這篇文章， SAS 排序的設定值為升冪，也就是說每個人都會從最早那次的紀錄開始往後排序，所以用 first.id 就可以留下每個人最早那次的消費紀錄。這邊也可以用排除重複的概念保留 1 筆資料 proc sort data =cost out =cost_2 nodupkey ; BY ID; run ; 利用 nodupkey ，將 ID 重複的資料刪除，僅保留每個 ID 第一次出現的該筆紀錄。歸人累計所有消費金額 proc sort data =cost; by ID time; run ; data cost_1; set cost; by ID; if first.id then count= 0 ;/* 每個人第一筆資料都令 count=0*/ count+NT;/* 同 ID 累計 NT 數值 */ if last.id; run ; 除了要歸人以外，還要累計每個仁所有的消費金額，所以這邊就會創建一個 count 欄位，每一個人的第一筆 ID 令 count=0 ，在同樣 ID 時累加 NT 的數值，最後每個人保留最後一筆 ID ，也就是最後累計的總額。以 Python 進行資料歸人...

閱讀完整內容

使用python繪製Upset plot

Upset plot 將集合視覺化，特別是當集合數大於 5 的時候， Upset plot 相較於 Venn plot 可以更清楚的呈現。 Upset plot 來自於 Venn plot 的變化， Venn plot 較常用於生物資訊呈現 ( 圖 1-3) ，但是往往會遇到集合數太多不易呈現的情況，從下圖可清楚看到當集合數為 4 的時候，畫面已經有些複雜，所以 Venn plot 的缺點就是當集合數過多時，畫面所呈現的資訊反而會造成視覺上的負擔，增加訊息解讀的困難性，失去視覺化的意義 — 方便閱讀，因此當集合數 ≥5 時不建議使用 Venn plot ，而後衍生出 Upset plot 。 Upset plot 優勢在於當集合數 ≥5 時可以清楚呈現資訊，不會造成視覺上的混亂。 2020 年影響全球的 COVID-19 ，在面對未知的流行病時沒有人可以確定真正有效的治療物，因此優先挑出具有高度可能性的藥物，嘗試用於治療病患，在高度不確定性的情況下會產生多種治療組合，這樣的情況就很適合採用 Upset plot 呈現 Real World 用藥資料，這裡有一篇發表於 CANCER DISCOVERY 的文章，這是一個很好的實務範例 ( 圖 4) ，以下擷取這篇 paper 的部份數據，簡單的做個 Upset plot 。操作步驟 1. 選定主題，準備素材以這篇文章中的數據來畫 Upset plot 圖。開始執行前，需要先安裝 Upset plot 的套件。在 Window 環境下，開起命令提示字元，輸入 pip install upsetplot ，安裝完成後，就可進入繪圖步驟。 2. 繪製 Upset plot 這邊帶入 paper 中前 10 筆的數據。 from upsetplot import generate_counts from upsetplot import plot from upsetplot import from_memberships example = from_memberships([['Azithromycin','Hydroxychloroquine'], ['Hydroxychloroquine'...

閱讀完整內容

臨床統計農莊

搜尋此網誌