跳到主要內容

發表文章

目前顯示的是 6月, 2020的文章

Python與SAS資料處理入門-變項合併與名稱修改

將舊有的變項合併創建新變項 在處理大數據時常常會遇到需橫跨多個資料庫間進行資料串連,因此可能會遇到幾個問題 : (1) 不同資料庫間串連的鍵值欄位可能有多個,例如 :ID 與生日相同的資料才可互相串連。 (2) 不同資料庫間串聯的鍵值不盡相同。 (3) 要串聯的檔案之間有名稱相同的欄位,前幾篇文章有提到欄位合併的處理在 SAS 的語法上要注意檔案合併時欄位名稱相同會覆蓋的問題。 針對第 1 跟第 2 個問題,可先依據串聯不同資料庫鍵值的欄位需求先合併成一個 unique id ,後續直接用這個鍵值進行串連。合併後的新鍵值除了做為串檔用外,當資料處理時遇到原先鍵值不 unique 的情況,也會 透過變項合併產生新的 unique id 來取代原先的 id 鍵值 。 對於問題 3 ,檔案合併遇到命名相同的欄位產生 相互覆蓋 的問題,這部分會透過變更名稱的方式來處理。 以簡單例子進行練習 手上有 2 種檔案 : (1) 調查的基本資料,裡面包含 ID 、 Gender 、 Birthday 、 City( 戶籍地 ) 等資訊。 (2) 調查的結果,裡面包含 ID 、 Birthday 、 City( 收案地點 ) 、 Q_date( 受訪日期 ) 以及問卷題項。 問題 1: 鍵值不 unique 觀察第一份資料可以發現 ID 編號為 007 的有兩個且生日不同,因此判定可能是不同的人,編號重複編列,在這樣的情況下如果僅用 ID 串聯結果可能會是這樣。 在基本資料 (A) 的那兩筆 ID 為 007 的資料同時都會與調查結果 (B) 中 ID 為 007 那筆資料串連,但很明顯的是 B 資料的 007 合併生日判斷後可以發現不屬於 A 檔另一筆 007 的數據,因此原本 unique 的 ID 不為 unique ,因此合併 ID 與 Birthday 成為一個新的 unique ID 做為鍵值。 問題 2: 不同檔案有相同的名稱 這兩個檔案中有 2 個欄位名稱相同, Birthday 與 City 。在考量 Birthday 與 ID 將合併為新鍵值後,可暫擱一邊不需特別處理。但 City 部分的問題就比較大了,雖名稱相同但實際上代表的含意不同,如

《第三種猩猩》一點都不科普的科普書--從人類演化角度看歷史

作者為賈德.戴蒙,他最經典的是 《 槍炮、病菌與鋼鐵:人類社會的命運 》,書商在宣傳時用的的是 人類文明三部曲 ( 共三冊 )── 槍炮、病菌與鋼鐵 + 大崩壞 + 昨日世界 ,感覺讀完馬上就能感受到人類文明的進化。 《第三種猩猩》是 戴蒙最早的一本科普書,雖說為科普書但對於較少接觸這類書的我來說頗為吃力,但很多章節光看目錄就覺得有趣,如 人類性象的演化、婚外情的邏輯、為什麼麻醉自己:菸、酒與毒品、「原住民」問題:族群衝突等,說穿了人類只 不過是另一種大型哺乳類罷了,我們只是大型哺乳類 為何能在大自然崛起 ,變成智人,其他物種卻滅絕呢 ?? 人類與猩猩的關係最密切,黑猩猩只有兩種,黑猩猩與巴諾布猿,基因的差異 1.6% ,因此稱人類是第三種猩猩!就這 1.6% 造成獨立演化的不同道路。 公衛的視角沈思 人類以「性象」決定了社會組織的方式,從「人性」的角度出發,了解為何會產生某種行為,另一方面又不可避免地導致「族群問題」。 人為何會驅使自己去做一些我們知道對自己很危險的事, 我們一旦開始服用毒品,就會繼續服用?也許是因為上癮。問題是:為什麼我們會願意嘗試? 以色列生物學家扎哈維( A.Zahavi )的 「缺陷原則」 (handicap principle) ,認為動物 ( 尤其是雄性 ) 會讓自己暴露在不利條件,或是處於看似危險的處境,後而僥倖存活,也正是因為這些危險行為而讓它們活著。 人類為何濫用菸、酒與毒品的行為 我的理解是這就能解釋人類為何濫用菸、酒與毒品的行為,吸毒代表敢吸而且沒被抓到,我們與動物皆會從事危險行為,其實有時候就是因為危險行為 ( 菸、酒與毒品 ) 讓我們自以為與眾不同,因該是對這種行為產生了上癮,只是藉由菸酒毒展現出來。這些行為會為我們帶來團體及社會地位、追求異性、獲取權力、炫耀力量等,附加價值帶來的影響才是真正的目的。反觀動物是因為求存,他們的環境不像我們這麼安全,如羚羊以彈跳向獅子示威:我跑得很快,就算你想吃我,我也跑得掉。像這類容易出現在青少年與青年期。 【 藝術往往被視為妥噹噹的指標 - 表現一個人的優越或地位,因為創作藝術品需要技巧,獲得藝術品需要一部分或財富。但是擁有一部分的人,可以利用現有的一部分攫取更高的上方,下游有機會接近資源與配偶。】