透過刪除不必要欄位或保留特定欄位,讓資料表簡潔以便做後續的併檔或分析處理。 大數據除了資料筆數龐大外,通常也有很多欄位數,但實際需要的只需要幾個特定欄位時,龐大的欄位數量在處理上也會拖慢執行效能。因此依照需求使用保留特定變項或是刪除某些變項是很常使用的做法。 以簡單的例子進行操作 假定手上有 1 個 2019 年滿意度調查結果的資料,調查的問題有很多,但我們只關心前 5 題的滿意度結果,對於其他的問題不是那麼滿興趣,因此為了畫面簡潔以及避免拖慢處理速度,針對欄為進行保留、刪除的處理,接下來分別以 SAS 及 Python 進行操作示範,如果對於軟體基本概念不清楚的可參閱 此篇內容 。 以 SAS 進行欄為保留、刪除 當保留的欄位數少於將要移除的數量時,建議用 keep 保留所需的欄位。 data test; set y_2019; keep ID Q_date Q1 Q2 Q3 Q4 Q5; run ; 當保留的欄位數多於將要移除的數量時,建議用 drop 刪除不需要的欄位 data test; set y_2019; drop Q6 Q7 Q8 Q9 Q10; run ; 上面的語法,不論用 keep 或 drop 皆可達到相同的結果,因此使用者可依據需求選擇適合的指令。 以 Python 進行欄為保留、刪除 保留特定欄位時 test=y_2019[["ID","Q_date","Q1","Q2","Q3","Q4","Q5"]] 刪除特定欄位時 test=y_2019.drop (columns=["Q6","Q7","Q8","Q9","Q10"]) #使用drop函數指定刪除欄位