大家在寫論文時可能經常會遇到大數據樣本中異常數據批量剔除的問題,本文在于向大家推薦在Stata中運用winsorize方法,來對數據進行處理(縮尾使數據平滑,或直接刪除),經試驗有效,希望有所幫助。
Stata(網上有面安裝款,解壓能直接運行),實驗數據文章源自四五設計網-http://www.wasochina.com/34677.html
打開stata,在命令行輸入ssc install winsor2, replace,自動安裝 winsor2文章源自四五設計網-http://www.wasochina.com/34677.html
文章源自四五設計網-http://www.wasochina.com/34677.html
準備數據(注意輸入格式)文章源自四五設計網-http://www.wasochina.com/34677.html
文章源自四五設計網-http://www.wasochina.com/34677.html
導入數據File-Inport文章源自四五設計網-http://www.wasochina.com/34677.html
文章源自四五設計網-http://www.wasochina.com/34677.html
輸入命令winsor2 變量名 變量名, replace cuts(1 99),此條命令是先找到各個變量的1%,99%所對應的分位數,比如對于變量ac1,其分位數分別為a、b,那么將數據中小于a的數替換成a,將大于b的數替換成b,原始數據直接變為新數據,這樣就是縮尾,使數據平滑(口徑為1%)。若輸入命令winsor2 變量名 變量名, replace cuts(1 99) trim,則不替換,將小于a和大于b的直接刪除文章源自四五設計網-http://www.wasochina.com/34677.html
文章源自四五設計網-http://www.wasochina.com/34677.html
最后一張圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執行結果,大家看到數據表中的“.”,即是刪除完異常值后的結果,批量處理后可以File-Export將數據導出,在Excel上排序后即可將其刪除(或在STATA上用其他命令也可)文章源自四五設計網-http://www.wasochina.com/34677.html


評論