導航:首頁 > 研究方法 > 回顧性研究缺失數據處理方法

回顧性研究缺失數據處理方法

發布時間:2022-08-06 06:44:46

1. 回顧性分析缺失值統計學處理方法求助

給你講一種簡單的方法 隊列研究是研究的從因到果方向 病例對照研究則是從果到因的方向 還有就是從舉的例子可以區別 隊列研究是從暴露水平或者暴露與否分組的 病例對照研究是從有病沒病來分組的 這是簡單的區分方法 希望對你有所幫助

2. 如何處理數據中的缺失值

一、常用方法 1. 刪除
最簡單的方法是刪除,刪除屬性或者刪除樣本。如果大部分樣本該屬性都缺失,這個屬性能提供的信息有限,可以選擇放棄使用該維屬性;如果一個樣本大部分屬性缺失,可以選擇放棄該樣本。雖然這種方法簡單,但只適用於數據集中缺失較少的情況。

2. 統計填充
對於缺失值的屬性,尤其是數值類型的屬性,根據所有樣本關於這維屬性的統計值對其進行填充,如使用平均數、中位數、眾數、最大值、最小值等,具體選擇哪種統計值需要具體問題具體分析。另外,如果有可用類別信息,還可以進行類內統計,比如身高,男性和女性的統計填充應該是不同的。

3. 統一填充
對於含缺失值的屬性,把所有缺失值統一填充為自定義值,如何選擇自定義值也需要具體問題具體分析。當然,如果有可用類別信息,也可以為不同類別分別進行統一填充。常用的統一填充值有:「空」、「0」、「正無窮」、「負無窮」等。

4. 預測填充
我們可以通過預測模型利用不存在缺失值的屬性來預測缺失值,也就是先用預測模型把數據填充後再做進一步的工作,如統計、學習等。雖然這種方法比較復雜,但是最後得到的結果比較好。

二、具體分析
上面兩次提到具體問題具體分析,為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著數據缺失,缺失本身是包含信息的,所以需要根據不同應用場景下缺失值可能包含的信息進行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:

「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值; 「行為時間點」:填充眾數; 「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值; 「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值; 「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理; 」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理; 「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。

3. 數據缺失想要補齊有什麼方法,用spss的替換缺失值和缺失值分析完全不會用

1、均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

2、利用同類均值插補。同均值插補的方法都屬於單值插補,不同的是,它用層次聚類模型預測缺失變數的類型,再以該類型的均值插補。假設X=(X1,X2...Xp)為信息完全的變數,Y為存在缺失值的變數。

那麼首先對X或其子集行聚類,然後按缺失個案所屬類來插補不同類的均值。如果在以後統計分析中還需以引入的解釋變數和Y做分析,那麼這種插補方法將在模型中引入自相關,給分析造成障礙。

3、極大似然估計(Max Likelihood ,ML)。在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麼通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。

這種方法也被稱為忽略缺失值的極大似然估計,對於極大似然的參數估計實際中常採用的計算方法是期望值最大化(Expectation Maximization,EM)。

4、多重插補(Multiple Imputation,MI)。多值插補的思想來源於貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的雜訊,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。



(3)回顧性研究缺失數據處理方法擴展閱讀

缺失值產生的原因很多,裝備故障、無法獲取信息、與其他欄位不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之後的數據可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特徵。

對於缺失值的處理,從總體上來說分為刪除存在缺失值的個案和缺失值插補。對於主觀數據,人將影響數據的真實性,存在缺失值的樣本的其他屬性的真實值不能保證,那麼依賴於這些屬性值的插補也是不可靠的,所以對於主觀數據一般不推薦插補的方法。插補主要是針對客觀數據,它的可靠性有保證。

4. 如何使用SPSS處理缺失數據Missing Data

對缺失值的處理 (1) 剔除有缺失值的觀測單位, 即刪除SPSS 數據列表中缺失值所在的數據行; 在SPSS 的統計分析程序中, 打開op t ions 按鈕, 便會出現缺失值的處理欄(m issing values) , 可分別選擇下列選項: exclude cases analysis by analysis (剔除正在分析的變數中帶缺失值的觀察單位) ; exclude case list w ise (剔除所有分析變數中帶缺失值的觀察單位) ;(2) 對缺失值進行估計後補上. 主要有兩種方法:一是根據文獻報道等知識經驗進行估計; 二是用SPSS 提供的工具進行估計. 在「transfo rm 」菜單下的「rep lace m issing values」列出了5 種替代的方法: (a) series mean: 以列的算術平均值進行替代; (b)mean of nearly po int: 以缺失值鄰近點的算術平均值進行替代; (c)M edian of nearly po int: 以缺失值臨近點的中位數替代; (d) linear interpo lat ion: 根據缺失值前後的2 個觀察值進行線性內查法估計和替代; (e) linear t rend at po int: 用線形回歸法進行估計和替代; (3) 將缺失值作為常數值, 如: 作為「0」.

5. 缺失值在回歸前一般是要處理的,有多種處理方式.1均值替代;2多重補漏分析

(一)個案剔除法(Listwise Deletion)
最常見、最簡單的處理缺失數據的方法是用個案剔除法(listwise
deletion),也是很多統計(如SPSS和SAS)默認的缺失值處理方法。在這種方法中如果任何一個變數含有缺失數據的話,就把相對應的個案從分析中剔除。如果缺失值所佔比例比較小的話,這一方法十分有效。至於具體多大的缺失比例算是「小」比例,專家們意見也存在較大的差距。有學者認為應在5%以下,也有學者認為20%以下即可。然而,這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在樣本量較小的情況下,刪除少量對象就足以嚴重影響到數據的客觀性和結果的正確性。因此,當缺失數據所佔比例較大,特別是當缺數據非隨機分布時,這種方法可能導致數據發生偏離,從而得出錯誤的結論。
(二)均值替換法(Mean Imputation)
在變數十分重要而所缺失的數據量又較為龐大的時候,個案剔除法就遇到了困難,因為許多有用的數據也同時被剔除。圍繞著這一問題,研究者嘗試了各種各樣的辦法。其中的一個方法是均值替換法(mean
imputation)。我們將變數的屬性分為數值型和非數值型來分別進行處理。如果缺失值是數值型的,就根據該變數在其他所有對象的取值的平均值來填充該缺失的變數值;如果缺失值是非數值型的,就根據統計學中的眾數原理,用該變數在其他所有對象的取值次數最多的值來補齊該缺失的變數值。但這種方法會產生有偏估計,所以並不被推崇。均值替換法也是一種簡便、快速的缺失數據處理方法。使用均值替換法插補缺失數據,對該變數的均值估計不會產生影響。但這種方法是建立在完全隨機缺失(MCAR)的假設之上的,而且會造成變數的方差和標准差變小。
(三)熱卡填充法(Hotdecking)
對於一個包含缺失值的變數,熱卡填充法在資料庫中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。最常見的是使用相關系數矩陣來確定哪個變數(如變數Y)與缺失值所在變數(如變數X)最相關。然後把所有個案按Y的取值大小進行排序。那麼變數X的缺失值就可以用排在缺失值前的那個個案的數據來代替了。與均值替換法相比,利用熱卡填充法插補數據後,其變數的標准差與插補前比較接近。但在回歸方程中,使用熱卡填充法容易使得回歸方程的誤差增大,參數估計變得不穩定,而且這種方法使用不便,比較耗時。
(四)回歸替換法(Regression Imputation)
回歸替換法首先需要選擇若干個預測缺失值的自變數,然後建立回歸方程估計缺失值,即用缺失數據的條件期望值對缺失值進行替換。與前述幾種插補方法比較,該方法利用了資料庫中盡量多的信息,而且一些統計(如Stata)也已經能夠直接執行該功能。但該方法也有諸多弊端,第一,這雖然是一個無偏估計,但是卻容易忽視隨機誤差,低估標准差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二,研究者必須假設存在缺失值所在的變數與其他變數存在線性關系,很多時候這種關系是不存在的。
(五)多重替代法(Multiple Imputation)
多重估算是由Rubin等人於1987年建立起來的一種數據擴充和統計分析方法,作為簡單估算的改進產物。首先,多重估算技術用一系列可能的值來替換每一個缺失值,以反映被替換的缺失數據的不確定性。然後,用標準的統計分析過程對多次替換後產生的若干個數據集進行分析。最後,把來自於各個數據集的統計結果進行綜合,得到總體參數的估計值。由於多重估算技術並不是用單一的值來替換缺失值,而是試圖產生缺失值的一個隨機樣本,這種方法反映出了由於數據缺失而導致的不確定性,能夠產生更加有效的統計推斷。結合這種方法,研究者可以比較容易地,在不舍棄任何數據的情況下對缺失數據的未知性質進行推斷。NORM統計可以較為簡便地操作該方法

6. 如何處理統計過程中的數據缺失

處理不完備數據集的方法主要有以下三大類: (一)刪除元組
也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。這種方法簡單易行,在對象有多個
屬性缺失值、被刪除的含缺失值的對象與信息表中的數據量相比非常小的情況下是非常有效的,類標號(假設是分類任務)缺少時
通常使用。然而,這種方法卻有很大的局限性。它是以減少歷史數據來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏
在這些對象中的信息。在信息表中本來包含的對象很少的情況下,刪除少量對象就足以嚴重影響到信息表信息的客觀性和結果的正
確性;當每個屬性空值的百分比變化很大時,它的性能非常差。因此,當遺漏數據所佔比例較大,特別當遺漏數據非隨機分布時, 這種方法可能導致數據發生偏離,從而引出錯誤的結論。 (二)數據補齊
這類方法是用一定的值去填充空值,從而使信息表完備化。通常基於統計學原理,根據決策表中其餘對象取值的分布情況來
對一個空值進行填充,譬如用其餘屬性的平均值來進行補充等。數據挖掘中常用的有以下幾種補齊方法:
(1)人工填寫(filling manually)
由於最了解數據的還是用戶自己,因此這個方法產生數據偏離最小,可能是填充效果最好的一種。然而一般來說,該方法很費時, 當數據規模很大、空值很多的時候,該方法是不可行的。
(2)特殊值填充(Treating Missing Attribute values as Special values) 將空值作為一種特殊的屬性值來處理,它不同於其他的任何屬性值。如所有的空值都用「unknown」填充。這樣將形成另一個有趣的

概念,可能導致嚴重的數據偏離,一般不推薦使用。 (3)平均值填充(Mean/Mode Completer)
將信息表中的屬性分為數值屬性和非數值屬性來分別進行處理。如果空值是數值型的,就根據該屬性在其他所有對象的取值
的平均值來填充該缺失的屬性值;如果空值是非數值型的,就根據統計學中的眾數原理,用該屬性在其他所有對象的取值次數最多
的值(即出現頻率最高的值)來補齊該缺失的屬性值。另外有一種與其相似的方法叫條件平均值填充法(Conditional Mean
Completer)。在該方法中,缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到,但不同的是用於求平均的值並不是
從信息表所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。這兩種數據的補齊方法,其基本的出發點都是一樣的
,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現存數據的多數信息來推 測缺失值。
(4)熱卡填充(Hot deck imputation,或就近補齊)
對於一個包含空值的對象,熱卡填充法在完整數據中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不
同的問題可能會選用不同的標准來對相似進行判定。該方法概念上很簡單,且利用了數據間的關系來進行空值估計。這個方法的缺 點在於難以定義相似標准,主觀因素較多。 (5)K最近距離鄰法(K-means clustering)
先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。
(6)使用所有可能的值填充(Assigning All Possible values of the Attribute) 這種方法是用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當數據量很大或者遺漏的屬性值
較多時,其計算的代價很大,可能的測試方案很多。另有一種方法,填補遺漏屬性值的原則是一樣的,不同的只是從決策相同的對

象中嘗試所有的屬性值的可能情況,而不是根據信息表中所有對象進行嘗試,這樣能夠在一定程度上減小原方法的代價。 (7)組合完整化方法(Combinatorial Completer)
這種方法是用空缺屬性值的所有可能的屬性取值來試,並從最終屬性的約簡結果中選擇最好的一個作為填補的屬性值。這是
以約簡為目的的數據補齊方法,能夠得到好的約簡結果;但是,當數據量很大或者遺漏的屬性值較多時,其計算的代價很大。另一
種稱為條件組合完整化方法(Conditional Combinatorial Complete),填補遺漏屬性值的原則是一樣的,不同的只是從決策相同
的對象中嘗試所有的屬性值的可能情況,而不是根據信息表中所有對象進行嘗試。條件組合完整化方法能夠在一定程度上減小組合
完整化方法的代價。在信息表包含不完整數據較多的情況下,可能的測試方案將巨增。
(8)回歸(Regression)
基於完整的數據集,建立回歸方程(模型)。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值
來進行填充。當變數不是線性相關或預測變數高度相關時會導致有偏差的估計。 (9)期望值最大化方法(Expectation maximization,EM)
EM演算法是一種在不完全數據情況下計算極大似然估計或者後驗分布的迭代演算法[43]。在每一迭代循環過程中交替執行兩個步
驟:E步(Excepctaion step,期望步),在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函
數的條件期望;M步(Maximzation step,極大化步),用極大化對數似然函數以確定參數的值,並用於下步的迭代。演算法在E步和M
步之間不斷迭代直至收斂,即兩次迭代之間的參數變化小於一個預先給定的閾值時結束。該方法可能會陷入局部極值,收斂速度也 不是很快,並且計算很復雜。
(10)多重填補(Multiple Imputation,MI)

多重填補方法分為三個步驟:①為每個空值產生一套可能的填補值,這些值反映了無響應模型的不確定性;每個值都被用來
填補數據集中的缺失值,產生若干個完整數據集合。②每個填補數據集合都用針對完整數據集的統計方法進行統計分析。③對來自
各個填補數據集的結果進行綜合,產生最終的統計推斷,這一推斷考慮到了由於數據填補而產生的不確定性。該方法將空缺值視為
隨機樣本,這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復雜。 (11)C4.5方法
通過尋找屬性間的關系來對遺失值填充。它尋找之間具有最大相關性的兩個屬性,其中沒有遺失值的一個稱為代理屬性,另
一個稱為原始屬性,用代理屬性決定原始屬性中的遺失值。這種基於規則歸納的方法只能處理基數較小的名詞型屬性。
就幾種基於統計的方法而言,刪除元組法和平均值法差於hot deck、EM和MI;回歸是比較好的一種方法,但仍比不上hot
deck和EM;EM缺少MI包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數的估計而不是空缺值預測本身。它們合適
於處理無監督學習的問題,而對有監督學習來說,情況就不盡相同了。譬如,你可以刪除包含空值的對象用完整的數據集來進行訓
練,但預測時你卻不能忽略包含空值的對象。另外,C4.5和使用所有可能的值填充方法也有較好的補齊效果,人工填寫和特殊值填 充則是一般不推薦使用的。
補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備信息進行補齊處理的同時,我們或多
或少地改變了原始的信息系統。而且,對空值不正確的填充往往將新的雜訊引入數據中,使挖掘任務產生錯誤的結果。因此,在許
多情況下,我們還是希望在保持原始信息不發生變化的前提下對信息系統進行處理。這就是第三種方法:
混 沌 論 壇 希望可以幫助到你~望採納哦~謝謝~

7. 數據清理中,處理缺失值的方法有哪些

由於調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。

計算機俗稱電腦,是一種用於高速計算的電子計算機器,可以進行數值計算,又可以進行邏輯計算,還具有存儲記憶功能。是能夠按照程序運行,自動、高速處理海量數據的現代化智能電子設備。由硬體系統和軟體系統所組成,沒有安裝任何軟體的計算機稱為裸機。

可分為超級計算機、工業控制計算機、網路計算機、個人計算機、嵌入式計算機五類,較先進的計算機有生物計算機、光子計算機、量子計算機、神經網路計算機。蛋白質計算機等。

當今計算機系統的運算速度已達到每秒萬億次,微機也可達每秒幾億次以上,使大量復雜的科學計算問題得以解決。例如:衛星軌道的計算、大型水壩的計算、24小時天氣預報的計算等,過去人工計算需要幾年、幾十年,而現在用計算機只需幾天甚至幾分鍾就可完成。

科學技術的發展特別是尖端科學技術的發展,需要高度精確的計算。計算機控制的導彈之所以能准確地擊中預定的目標,是與計算機的精確計算分不開的。一般計算機可以有十幾位甚至幾十位(二進制)有效數字,計算精度可由千分之幾到百萬分之幾,是任何計算工具所望塵莫及的。

隨著計算機存儲容量的不斷增大,可存儲記憶的信息越來越多。計算機不僅能進行計算,而且能把參加運算的數據、程序以及中間結果和最後結果保存起來,以供用戶隨時調用;還可以對各種信息(如視頻、語言、文字、圖形、圖像、音樂等)通過編碼技術進行算術運算和邏輯運算,甚至進行推理和證明。

計算機內部操作是根據人們事先編好的程序自動控制進行的。用戶根據解題需要,事先設計好運行步驟與程序,計算機十分嚴格地按程序規定的步驟操作,整個過程不需人工干預,自動執行,已達到用戶的預期結果。

超級計算機(supercomputers)通常是指由數百數千甚至更多的處理器(機)組成的、能計算普通PC機和伺服器不能完成的大型復雜課題的計算機。超級計算機是計算機中功能最強、運算速度最快、存儲容量最大的一類計算機,是國家科技發展水平和綜合國力的重要標志。

超級計算機擁有最強的並行計算能力,主要用於科學計算。在氣象、軍事、能源、航天、探礦等領域承擔大規模、高速度的計算任務。

在結構上,雖然超級計算機和伺服器都可能是多處理器系統,二者並無實質區別,但是現代超級計算機較多採用集群系統,更注重浮點運算的性能,可看著是一種專注於科學計算的高性能伺服器,而且價格非常昂貴。

一般的超級計算器耗電量相當大,一秒鍾電費就要上千,超級計算器的CPU至少50核也就是說是家用電腦的10倍左右,處理速度也是相當的快,但是這種CPU是無法購買的,而且價格要上千萬。

閱讀全文

與回顧性研究缺失數據處理方法相關的資料

熱點內容
簡便洗發方法 瀏覽:405
怎麼去除黃褐斑這些方法你該知道 瀏覽:958
怎麼用牛奶做奶茶的方法 瀏覽:883
不墨跡紋身的方法視頻 瀏覽:184
93x101簡便計算方法 瀏覽:503
用什麼方法可以祛除凍傷疤痕 瀏覽:20
脫臼的最好解決方法 瀏覽:510
夾渣的檢測方法 瀏覽:381
吸氣呼氣的正確方法 瀏覽:480
js中小數運算不精準的解決方法 瀏覽:487
35公斤滅火器使用方法 瀏覽:61
寫出84消毒液的配方法及常用配比濃度 瀏覽:878
貝貝鴨體溫計使用方法 瀏覽:228
大便後粘馬桶用什麼方法解決 瀏覽:101
小黃姜種植方法 瀏覽:325
跑步傷痛的解決方法 瀏覽:693
櫃子除蟎蟲的最佳方法 瀏覽:812
如何用測電阻方法測電容 瀏覽:798
幽門桿菌的檢測方法 瀏覽:354
如何瘦大腿最有效方法 瀏覽:604