透過刪除不必要欄位或保留特定欄位,讓資料表簡潔以便做後續的併檔或分析處理。
大數據除了資料筆數龐大外,通常也有很多欄位數,但實際需要的只需要幾個特定欄位時,龐大的欄位數量在處理上也會拖慢執行效能。因此依照需求使用保留特定變項或是刪除某些變項是很常使用的做法。
以簡單的例子進行操作
假定手上有1個2019年滿意度調查結果的資料,調查的問題有很多,但我們只關心前5題的滿意度結果,對於其他的問題不是那麼滿興趣,因此為了畫面簡潔以及避免拖慢處理速度,針對欄為進行保留、刪除的處理,接下來分別以SAS及Python進行操作示範,如果對於軟體基本概念不清楚的可參閱此篇內容。
以SAS進行欄為保留、刪除
當保留的欄位數少於將要移除的數量時,建議用keep保留所需的欄位。
data test;set
y_2019;keep ID Q_date Q1 Q2 Q3 Q4 Q5;run;
當保留的欄位數多於將要移除的數量時,建議用drop刪除不需要的欄位
data test;set
y_2019;drop Q6 Q7 Q8 Q9 Q10;run;
上面的語法,不論用keep 或drop皆可達到相同的結果,因此使用者可依據需求選擇適合的指令。
以Python進行欄為保留、刪除
保留特定欄位時
test=y_2019[["ID","Q_date","Q1","Q2","Q3","Q4","Q5"]]
留言
張貼留言