python 機器學習的標準化、歸一化、正則化、離散化和白化

2021-04-15 19:02:14

機器學習的本質是從資料集中發現資料內在的特徵，而資料的內在特徵往往被樣本的規格、分佈範圍等外在特徵所掩蓋。資料預處理正是為了最大限度地幫助機器學習模型或演演算法找到資料內在特徵所做的一系列操作，這些操作主要包括標準化、歸一化、正則化、離散化和白化等。

1 標準化

假定樣本集是二維平面上的若干個點，橫座標 x 分佈於區間 [0,100] 內，縱座標 y 分佈於區間 [0,1] 內。顯然，樣本集的 x 特徵列和 y 特徵列的動態範圍相差巨大，對於機器學習模型（如k-近鄰或 k-means 聚類）的影響也會有顯著差別。標準化處理正是為了避免某一個動態範圍過大的特徵列對計算結果造成影響，同時還可以提升模型精度。標準化的實質是對樣本集的每個特徵列減去該特徵列均值進行中心化，再除以標準差進行縮放。
Scikit-learn的預處理子模組preprocessing提供了一個快速標準化函數scale()，使用該函數可以直接返回標準化後的資料集，其程式碼如下。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> d = np.array([[ 1., -5., 8.], [ 2., -3., 0.], [ 0., -1., 1.]])
>>> d_scaled = pp.scale(d) # 對資料集d做標準化
>>> d_scaled
array([[ 0. , -1.22474487, 1.40487872],
 [ 1.22474487, 0. , -0.84292723],
 [-1.22474487, 1.22474487, -0.56195149]])
>>> d_scaled.mean(axis=0) # 標準化以後的資料集，各特徵列的均值為0
array([0., 0., 0.])
>>> d_scaled.std(axis=0) # 標準化以後的資料集，各特徵列的標準差為1
array([1., 1., 1.])

預處理子模組 preprocessing 還提供了一個實用類 StandardScaler，它儲存了訓練集上各特徵列的平均值和標準差，以便以後在測試集上應用相同的變換。此外，實用類StandardScaler 還可以通過 with_mean 和 with_std 引數指定是否中心化和是否按標準差縮放，其程式碼如下。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> X_train = np.array([[ 1., -5., 8.], [ 2., -3., 0.], [ 0., -1., 1.]])
>>> scaler = pp.StandardScaler().fit(X_train)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
>>> scaler.mean_ # 訓練集各特徵列的均值
array([ 1., -3., 3.])
>>> scaler.scale_ # 訓練集各特徵列的標準差
array([0.81649658, 1.63299316, 3.55902608])
>>> scaler.transform(X_train) # 標準化訓練集
array([[ 0. , -1.22474487, 1.40487872],
 [ 1.22474487, 0. , -0.84292723],
 [-1.22474487, 1.22474487, -0.56195149]])
>>> X_test = [[-1., 1., 0.]] # 使用訓練集的縮放標準來標準化測試集
>>> scaler.transform(X_test)
array([[-2.44948974, 2.44948974, -0.84292723]])

2 歸一化

標準化是用特徵列的均值進行中心化，用標準差進行縮放。如果用資料集各個特徵列的最小值進行中心化後，再按極差（最大值－最小值）進行縮放，即資料減去特徵列的最小值，並且會被收斂到區間 [0,1] 內，這個過程就叫作資料歸一化。
Scikit-learn的預處理子模組 preprocessing 提供 MinMaxScaler 類來實現歸一化功能。MinMaxScaler 類有一個重要引數 feature_range，該引數用於設定資料壓縮的範圍，預設是 [0,1]。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> X_train = np.array([[ 1., -5., 8.], [ 2., -3., 0.], [ 0., -1., 1.]])
>>> scaler = pp.MinMaxScaler().fit(X_train) # 預設資料壓縮範圍為[0,1]
>>> scaler
MinMaxScaler(copy=True, feature_range=(0, 1))
>>> scaler.transform(X_train)
array([[0.5 , 0. , 1. ],
 [1. , 0.5 , 0. ],
 [0. , 1. , 0.125]])
>>> scaler = pp.MinMaxScaler(feature_range=(-2, 2)) # 設定資料壓縮範圍為[-2,2]
>>> scaler = scaler.fit(X_train)
>>> scaler.transform(X_train)
array([[ 0. , -2. , 2. ],
 [ 2. , 0. , -2. ],
 [-2. , 2. , -1.5]])

因為歸一化對異常值非常敏感，所以大多數機器學習演演算法會選擇標準化來進行特徵縮放。在主成分分析（Principal Components Analysis，PCA）、聚類、邏輯迴歸、支援向量機、神經網路等演演算法中，標準化往往是最好的選擇。歸一化在不涉及距離度量、梯度、協方差計算，以及資料需要被壓縮到特定區間時被廣泛使用，如數位影像處理中量化畫素強度時，都會使用歸一化將資料壓縮在區間 [0,1] 內。

3 正則化

歸一化是對資料集的特徵列的操作，而正則化是將每個資料樣本的範數單位化，是對資料集的行操作。如果打算使用點積等運算來量化樣本之間的相似度，那麼正則化將非常有用。

Scikit-learn的預處理子模組preprocessing提供了一個快速正則化函數normalize()，使用該函數可以直接返回正則化後的資料集。normalize()函數使用引數norm指定I1正規化或I2正規化，預設使用I2正規化。I1 正規化可以理解為單個樣本各元素的絕對值之和為 1；I2 正規化可理解為單個樣本各元素的平方和的算術根為 1，相當於樣本向量的模（長度）。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> X_train = np.array([[ 1., -5., 8.], [ 2., -3., 0.], [ 0., -1., 1.]])
>>> pp.normalize(X_train) # 使用I2正規化正則化，每行的範數為1
array([[ 0.10540926, -0.52704628, 0.84327404],
 [ 0.5547002 , -0.83205029, 0. ],
 [ 0. , -0.70710678, 0.70710678]])
>>> pp.normalize(X_train, norm='I1') # 使用I1正規化正則化，每行的範數為1
array([[ 0.07142857, -0.35714286, 0.57142857],
 [ 0.4 , -0.6 , 0. ],
 [ 0. , -0.5 , 0.5 ]])

4 離散化

離散化（Discretization）是將連續特徵劃分為離散特徵值，典型的應用是灰度影象的二值化。如果使用等寬的區間對連續特徵離散化，則被稱為 K-bins 離散化。Scikit-learn的預處理子模組preprocessing提供了Binarizer類和KbinsDiscretizer類來進行離散化，前者用於二值化，後者用於 K-bins 離散化。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> X = np.array([[-2,5,11],[7,-1,9],[4,3,7]])
>>> bina = pp.Binarizer(threshold=5) # 指定二值化閾值為5
>>> bina.transform(X)
array([[0, 0, 1],
 [1, 0, 1],
 [0, 0, 1]])
>>> est = pp.KBinsDiscretizer(n_bins=[2, 2, 3], encode='ordinal').fit(X)
>>> est.transform(X) # 三個特徵列離散化為2段、2段、3段
array([[0., 1., 2.],
 [1., 0., 1.],
 [1., 1., 0.]])

5 白化

白化一詞是從whitening翻譯過來的，難以望文生義，只能從白化後的效果去理解。資料白化有兩個目的，一是去除或降低特徵列之間的相關性，二是使得每個特徵列的方差為1。顯然，白化的第一個目標就是主成分分析（PCA），通過主成分分析降維，消除方差佔比較小的特徵維；白化的第二個目標就是標準化。

白化分為PCA白化和ZCA白化兩種。PCA 白化將原資料各個特徵維變換到主成分軸上，消除了特徵之間的相關性，並使得各個主成分的方差為1。ZCA白化則是將PCA 白化的結果反變換到原資料的各個特徵維軸上，因為ZCA白化過程中通常不會降維。

Scikit-learn沒有提供專用的白化方法，不過藉助成分分析子模組decomposition提供的PCA 類可以輕鬆實現PCA白化。PCA類的引數whiten用於設定是否移除特徵間的線性關聯，預設值為False。

假如一位姑娘手頭有一堆相親資料，每位帥哥的資訊由年齡、身高、體重、年薪、房產數量、汽車數量等多個特徵項組成。通過白化操作，能夠生成一個特徵維較小、且可以直接比較樣本間差距的資料集。

>>> import numpy as np
>>> from sklearn import preprocessing as pp
>>> from sklearn.decomposition import PCA
>>> ds = np.array([
    [25, 1.85, 70, 50, 2, 1], 
    [22, 1.78, 72, 22, 0, 1], 
    [26, 1.80, 85, 25, 1, 0],
    [28, 1.70, 82, 100, 5, 2]
]) # 4個樣本，6個特徵列
>>> m = PCA(whiten=True) # 範例化主成分分析類，指定白化引數
>>> m.fit(ds) # 主成分分析
PCA(whiten=True)
>>> d = m.transform(ds) # 返回主成分分析結果
>>> d # 特徵列從6個降至4個
array([[ 0.01001541, -0.99099492, -1.12597902, -0.03748764],
       [-0.76359767, -0.5681715 ,  1.15935316,  0.67477757],
       [-0.65589352,  1.26928222, -0.45686577, -1.8639689 ],
       [ 1.40947578,  0.28988421,  0.42349164,  1.2724972 ]])
>>> d.std(axis=0) # 顯示各特徵列方差
array([0.8660254 , 0.8660254 , 0.8660254 , 1.17790433])
>>> d = pp.scale(d) # 標準化
>>> d.std(axis=0) # 標準化後的各特徵列方差均為1
array([1., 1., 1., 1.])

GitHub上有人提供了ZCA白化的程式碼，如果需要，請存取（https://github.com/mwv/zca）。

以上就是聊聊python 機器學習的標準化、歸一化、正則化、離散化和白化的詳細內容，更多關於python 機器學習的資料請關注it145.com其它相關文章！