無監督分箱的常用方法_非監督學習有哪些

㈠特徵工程中數據預處理方法總結

特徵工程

「巧婦難為無米之炊」，在機器學習中，數據和特徵便是「米」，而模型和演算法則是「巧婦」。沒有充足的數據和合適的特徵，再強大的模型也無法擬合出滿意的結果。因此，對於機器學習的問題，常說的一句話是數據和特徵決定了結果的上限，而模型和演算法則是在優化過程中逐步接近這個上限。所以，特徵的處理在整個機器學習過程中佔有舉足輕重的地位，對特徵的處理過程被稱為特徵工程。特徵工程是對原始數據進行一系列的工程處理，將其提煉為特徵，作為輸入工演算法和模型使用。

特徵工程又包含了Data PreProcessing（數據預處理）、Feature Extraction（特徵提取）、Feature Selection（特徵選擇）和Feature construction（特徵構造）等子問題，而數據預處理又包括了數據清洗和特徵預處理等子問題。本文用作總結數據預處理的一系列方法。

1、無量綱化

（1）什麼是無量綱化

為了消除數據特徵之間的量綱影響，我們需要對特徵進行歸一化和標准化處理，使得不同指標之間具有可比性。例如：分析一個人的身高和體重對健康的影響，如果使用米和千克作為單位，那麼身高和體重會處於不同的數值范圍內，體重的數值在量上要遠大於身高，而如果不對其做處理直接用的情況下分析結果顯然會更依賴於數值差別較大的體重特徵。因此，為了得到更為准確的結果，就需要對特徵進行歸一化和標准化處理，使各項指標處於同一數量級，以便進行分析。

（2）無量綱化方法

無量綱化通常也被稱為歸一化或標准化，是因為歸一化和標准化是無量綱化的兩個主要方法

1）歸一化

歸一化是對原始數據進行線性變換，使結果映射到[0, 1]的范圍，實現對原始數據的等比縮放。最常用對的是Min-Max Scaling歸一化方法（也叫極差變換法），公式如下：

其中X為原始數據， Xmax、Xmin分別為數據最大值和最小值。最值歸一化的使用范圍是特徵的分布具有明顯邊界的，受outlier的影響比較大。

除此之外，常用的歸一化方法有原始值比最大值。

2）標准化

標准化會將原始數據映射到均值為0、標准差為1的分布上。常用的方法是零均值標准化（Z-Score Normalization）。具體來說，假設原始特徵的均值為μ、標准差為σ，那麼歸一化公式定義為：

零均值標准化適用於數據中沒有明顯的邊界，有可能存在極端數據值的情況。

3）不同的無量綱方法的適用范圍

無量綱化避免了不同量綱的選取對距離計算產生的巨大影響。但是，歸一化和標准化適用於不同的場景，在分類、聚類演算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候，標准化方法表現更好。在不涉及距離度量、協方差計算、數據不符合正太分布的時候，可以使用歸一化方法。比如圖像處理中，將RGB圖像轉換為灰度圖像後將其值限定在[0 255]的范圍。

（3）無量綱化的作用和適用模型

1）作用

無量綱化的作用除了可以使分析結果不明顯傾向於差異化較大的特徵外，另一個重要作用是在隨機梯度下降演算法中，如果對特徵進行了無量綱化處理，會在相同的學習率的情況下減少差異較大的特徵的迭代次數，更快找到最優解。例如，假設有兩種數值型特徵，x1x1的取值范圍為 [0, 10]，x2x2的取值范圍為[0, 3]。則在未歸一化和歸一化數據的梯度下降過程分別如下圖：

由圖可以看出，在學習速率相同的情況下，x1相比與x2需要較多的迭代才能找到最優解。但是，如果將 x1 和 x2都映射到到相同的數值區間後，優化目標的等值圖會變成圓形。x1和 x2 的更新速度變得更為一致，容易更快地通過梯度下降找到最優解。

2）適用演算法

機器學習中，並不是所有的模型都需要對特徵進行無量綱化處理。比如概率模型並不需要，因為它們不關心變數的值，而是關心變數的分布和變數之間的條件概率。但是，像線性回歸、邏輯回歸和支持向量機以及神經網路模型等則就需要提前進行特徵的無量綱化。從另一個角度來看，通過梯度下降法求解的模型通常需要無量綱化。否則，像決策樹在求解過程中，主要依據特徵值的信息增益比等信息，而這些信息跟特徵是否經過歸一化等無量綱化處理是無關的，因此決策數不要求對特徵進行無量綱化處理。

2、類別型特徵編碼

類別型特徵的值表現為類別變數，類別型變數，也被稱為定性變數（categorical variable）。比如性別、省份、學歷、產品等級等。這類變數的取值通常是用文字而非數字來表示。在機器學習中，除了決策樹族的演算法能直接接受類別型特徵作為輸入，對於支持向量機，邏輯回歸等模型來說，必須對其做一定的處理，轉換成可靠的數值特徵才能正確運行。類別型特徵的處理方法有：

（1）序列編碼（ordinal encoding）

一般處理類別間具有大小關系的數據，例如期末成績的 [A, B, C, D] 四擋可以直接轉化為 [0, 1, 2, 3]。在轉化後，依然保持類別之間的順序關系。

（2）獨熱編碼（one-hot encoding）

序列編碼潛在的定義了類別之間的距離具有相同的含義。以成績為例，兩個人之間，得分A與B的成績差，和B與C的成績差，在進行預測時，是完全等價的，由於 [A, B, C, D] 直觀上與成績正相關，使用序列編碼不會帶來太大的損失。然而在處理像血型這樣的類別特徵時，如果將 [A, B, AB, O] 直接編碼成 [1, 2, 3, 4]，顯然A與B和B與AB之間的距離，並不具有相同的含義，甚至是完全抽象的無法理解的意義，此時，序列編碼就不適用了。因此，便出現了獨熱編碼，獨熱編碼將類別特徵用一組比特位來表示，每一位代表一個可能的類別，如果該變數不能一次稱為多個類別，那麼該組中只有一位可以是1。

對於類別取值較多的情況下適用獨熱編碼需要注意以下問題：

1）適用稀疏向量來節省空間。在獨熱編碼下，特徵向量只有某一維取值為1，其他位置取值均為0。因此，可以利用向量的稀疏表示有效節省空間，並且目前大部分的演算法均接受稀疏向量形式的輸入。

2）配合特徵選擇來降低維度。高維度特徵會帶來幾方面的問題，一是在K近鄰演算法中，高維空間下兩點之間的距離很難得到有效的衡量；二是在邏輯回歸模型中，參數的數量會隨著維度的增加而增高，容易引起過擬合問題；三是通常只有部分維度是對分類、預測有幫助，因此可以考慮配合特徵選擇來降低維度。

（3）啞變數（mmy encoding）

啞變數是獨熱編碼的一種形式，onehot編碼的問題是它允許k個自由度，其中變數本身只需要k-1。虛擬編碼通過僅適用表示中的k-1個特徵來消除額外的自由度。

3、數值型特徵離散化

離散化是數值型特徵非常重要的一個處理，其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的，為了便於表示和在模型中處理，需要對連續值特徵進行離散化處理。

（1）無監督方法

1）自定義離散化，根據業務經驗或者常識等自行設定劃分的區間，然後將原始數據歸類到各個區間中。

2）等距化方法，按照相同寬度將數據分成幾等份，其缺點是受到異常值的影響比較大。

3）等頻化方法，將數據分成幾等份，每等份數據裡面的個數是一樣的。

4）聚類離散化

5）二值化方法，設定一個閾值，大於閾值的賦值為1，小於等於閾值的賦值為0。

（2）有監督方法

1）卡方法，自底向上的(即基於合並的)數據離散化方法。它依賴於卡方檢驗：具有最小卡方值的相鄰區間合並在一起,直到滿足確定的停止准則。其基本思想是，對於精確的離散化，相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間具有非常類似的類分布，則這兩個區間可以合並；否則，它們應當保持分開。而低卡方值表明它們具有相似的類分布。

2）最小熵法，需要使總熵值達到最小，也就是使分箱能夠最大限度地區分因變數的各類別。數據集的熵越低，說明數據之間的差異越小，最小熵劃分就是為了使每箱中的數據具有最好的相似性。給定箱的個數，如果考慮所有可能的分箱情況，最小熵方法得到的箱應該是具有最小熵的分箱。

4、缺失值處理方法

（1）直接刪除

如果在數據集中，只有幾條數據的某幾列中存在缺失值，那麼可以直接把這幾條數據刪除。

（2）均值插補

數據的屬性分為定距型和非定距型。如果缺失值是定距型的，就以該屬性存在值的平均值來插補缺失的值；如果缺失值是非定距型的，就根據統計學中的眾數原理，用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

（3）利用同類均值插補

同均值插補的方法都屬於單值插補，不同的是，它用層次聚類模型預測缺失變數的類型，再以該類型的均值插補。

（4）極大似然估計

在缺失類型為隨機缺失的條件下，假設模型對於完整的樣本是正確的，那麼通過觀測數據的邊際分布可以對未知參數進行極大似然估計（Little and Rubin）。

（5）多重插補

多重插補的思想來源於貝葉斯估計，認為待插補的值是隨機的，它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值，然後再加上不同的雜訊，形成多組可選插補值。根據某種選擇依據，選取最合適的插補值。

㈡有監督學習和無監督學習演算法怎麼理解

在判斷是有監督學習還是在無監督學習上，我們可以具體是否有監督（supervised），就看輸入數據是否有標簽（label）。輸入數據有標簽，則為有監督學習，沒標簽則為無監督學習。

什麼是學習（learning）？

一個成語就可概括：舉一反三。機器學習的思路有點類似高考一套套做模擬試題，從而熟悉各種題型，能夠面對陌生的問題時算出答案。

簡而言之，機器學習就是看能不能利用一些訓練數據（已經做過的題），使機器能夠利用它們（解題方法）分析未知數據（高考題目），而這種根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題，稱之為無監督學習。

常用的無監督學習演算法主要有三種：聚類、離散點檢測和降維，包括主成分分析方法PCA等，等距映射方法、局部線性嵌入方法、拉普拉斯特徵映射方法、黑塞局部線性嵌入方法和局部切空間排列方法等。

從原理上來說，PCA等數據降維演算法同樣適用於深度學習，但是這些數據降維方法復雜度較高，所以現在深度學習中採用的無監督學習方法通常採用較為簡單的演算法和直觀的評價標准。比如無監督學習中最常用且典型方法聚類。

在無監督學習中，我們需要將一系列無標簽的訓練數據，輸入到一個演算法中，然後我們告訴這個演算法，快去為我們找找這個數據的內在結構給定數據。這時就需要某種演算法幫助我們尋找一種結構。

監督學習（supervised learning），是從給定的有標注的訓練數據集中學習出一個函數（模型參數），當新的數據到來時可以根據這個函數預測結果。常見任務包括分類與回歸。

無監督學習方法在尋找數據集中的規律性，這種規律性並不一定要達到劃分數據集的目的，也就是說不一定要「分類」。比如，一組顏色各異的積木，它可以按形狀為維度來分類，也可以按顏色為維度來分類。（這一點比監督學習方法的用途要廣。如分析一堆數據的主分量，或分析數據集有什麼特點都可以歸於無監督學習方法的范疇），而有監督學習則是通過已經有的有標簽的數據集去訓練得到一個最優模型。

㈢非監督學習有哪些

在機器學習，無監督學習的問題是，在未加標簽的數據中，試圖找到隱藏的結構。因為提供給學習者的實例是未標記的，因此沒有錯誤或報酬信號來評估潛在的解決方案。這區別於監督學習和強化學習無監督學習。

無監督學習是密切相關的統計數據密度估計的問題。然而無監督學習還包括尋求，總結和解釋數據的主要特點等諸多技術。在無監督學習使用的許多方法是基於用於處理數據的數據挖掘方法。

非監督學習對應的是監督學習。
聚類(例如,混合模型,層次聚類),

隱馬爾可夫模型,

盲目的信號分離使用特徵提取的技術降維(例如,主成分分析,獨立分量分析,非負矩陣分解,奇異值分解)。
在神經網路模型,自組織映射(SOM)和自適應共振理論(藝術)是常用的無監督學習演算法。SOM是一個地形組織附近的位置在地圖上代表輸入有相似屬性。藝術模型允許集群的數量隨問題規模和讓用戶控制之間的相似程度相同的集群成員通過一個用戶定義的常數稱為警戒參數。藝術網路也用於許多模式識別任務,如自動目標識別和地震信號處理。藝術的第一個版本是"ART1",由木匠和Grossberg(1988)。

導航:首頁 > 使用方法 > 無監督分箱的常用方法

無監督分箱的常用方法

與無監督分箱的常用方法相關的資料