Python 學(xué)習(xí)筆記之——用 sklearn 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理

xiaodao 發(fā)布于2019-07-30 18:34 / 1593人閱讀

摘要：默認(rèn)針對(duì)每列來(lái)進(jìn)行標(biāo)準(zhǔn)化，也即針對(duì)每個(gè)特征進(jìn)行標(biāo)準(zhǔn)化。歸一化歸一化的目的是讓每個(gè)樣本具有單位范數(shù)。默認(rèn)是對(duì)每行數(shù)據(jù)用范數(shù)進(jìn)行歸一化，我們也可以選擇范數(shù)或者針對(duì)每列進(jìn)行歸一化。

1. 標(biāo)準(zhǔn)化

標(biāo)準(zhǔn)化是為了讓數(shù)據(jù)服從一個(gè)零均值和單位方差的標(biāo)準(zhǔn)正態(tài)分布。也即針對(duì)一個(gè)均值為 $mean$ 標(biāo)準(zhǔn)差為 $std$ 的向量 $X$ 中的每個(gè)值 $x$，有 $x_{scaled} = frac{x - mean}{std}$。

>>> from sklearn import preprocessing
>>> import numpy as np

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])

>>> X_scaled = preprocessing.scale(X_train)
>>> X_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])

>>> X_scaled.mean(axis=0)
array([0., 0., 0.])

>>> X_scaled.std(axis=0)
array([1., 1., 1.])

默認(rèn)針對(duì)每列來(lái)進(jìn)行標(biāo)準(zhǔn)化，也即針對(duì)每個(gè)特征進(jìn)行標(biāo)準(zhǔn)化。可以通過(guò)設(shè)置 axis=1 來(lái)對(duì)每行進(jìn)行標(biāo)準(zhǔn)化，也即對(duì)每個(gè)樣本進(jìn)行標(biāo)準(zhǔn)化。sklearn.preprocessing.scale()

此外，我們還可以用訓(xùn)練數(shù)據(jù)的均值和方差來(lái)對(duì)測(cè)試數(shù)據(jù)進(jìn)行相同的標(biāo)準(zhǔn)化處理。sklearn.preprocessing.StandardScaler()

>>> scaler = preprocessing.StandardScaler().fit(X_train)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)

>>> scaler.mean_                                      
array([1. ..., 0. ..., 0.33...])

>>> scaler.scale_                                       
array([0.81..., 0.81..., 1.24...])

>>> scaler.transform(X_train)                           
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])

>>> X_test = [[-1., 1., 0.]] # 用同樣的均值和方差來(lái)對(duì)測(cè)試數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
>>> scaler.transform(X_test)                
array([[-2.44...,  1.22..., -0.26...]])

2. 將數(shù)據(jù)縮放到一定范圍

有時(shí)候，我們需要數(shù)據(jù)處在給定的最大值和最小值范圍之間，常常是 0 到 1 之間，這樣數(shù)據(jù)的最大絕對(duì)值就被限制在了單位大小以內(nèi)。

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> min_max_scaler = preprocessing.MinMaxScaler()
>>> X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

>>> X_test = np.array([[-3., -1.,  4.]]) # 將同樣的變換應(yīng)用到測(cè)試數(shù)據(jù)上
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array([[-1.5       ,  0.        ,  1.66666667]])

當(dāng) MinMaxScaler() 傳入一個(gè)參數(shù) feature_range=(min, max)，我們可以將數(shù)據(jù)縮放到我們想要的范圍內(nèi)。sklearn.preprocessing.MinMaxScaler()

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

此外，我們還可以將數(shù)據(jù)限制在 [-1， 1] 之間，通過(guò)除以每個(gè)特征的最大絕對(duì)值。sklearn.preprocessing.MaxAbsScaler()

>>> X_train = np.array([[ 1., -1.,  2.],
...                     [ 2.,  0.,  0.],
...                     [ 0.,  1., -1.]])
...
>>> max_abs_scaler = preprocessing.MaxAbsScaler()
>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)
>>> X_train_maxabs               
array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

>>> X_test = np.array([[ -3., -1.,  4.]])
>>> X_test_maxabs = max_abs_scaler.transform(X_test)
>>> X_test_maxabs                 
array([[-1.5, -1. ,  2. ]])
>>> max_abs_scaler.scale_         
array([2.,  1.,  2.])

3. 歸一化

歸一化的目的是讓每個(gè)樣本具有單位范數(shù)。也即針對(duì)向量 $X$ 中的每個(gè)值 $x$，有 $x_{normalized} = frac{x}{||X||}$。

>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm="l2")

>>> X_normalized                                      
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
>>> normalizer
Normalizer(copy=True, norm="l2")

>>> normalizer.transform(X)                            
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer.transform([[-1.,  1., 0.]])             
array([[-0.70...,  0.70...,  0.  ...]])

默認(rèn)是對(duì)每行數(shù)據(jù)用 $L2$ 范數(shù)進(jìn)行歸一化，我們也可以選擇 $L1$ 范數(shù)或者針對(duì)每列進(jìn)行歸一化。sklearn.preprocessing.Normalizer()

獲取更多精彩，請(qǐng)關(guān)注「seniusen」!

云服務(wù)器 GPU云服務(wù)器用python進(jìn)行數(shù)據(jù)分析 Python學(xué)習(xí)筆記對(duì)數(shù)據(jù)進(jìn)行分析對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)排行

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/42676.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xiaodao

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Pacificrack：2021年中國(guó)七夕節(jié)促銷VPS/2核/2G內(nèi)存/60G SSD/1T流量/支

閱讀 3104·2021-08-03 14:05
面試小結(jié)（一）

閱讀 2148·2019-08-29 15:35
css偽元素

閱讀 685·2019-08-29 13:30
CSS揭秘之《制作半透明邊框》

閱讀 3174·2019-08-29 13:20
理解JavaScript變量和類型

閱讀 2537·2019-08-23 18:15
Js處理頁(yè)面響應(yīng)式

閱讀 1804·2019-08-23 14:57
JS設(shè)計(jì)模式之Facade（外觀）模式

閱讀 2222·2019-08-23 13:57
Tasks(任務(wù)), microtasks(微任務(wù)), queues（隊(duì)列） and schedul

閱讀 1318·2019-08-23 12:10

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 學(xué)習(xí)筆記之——用 sklearn 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理

相關(guān)文章

ApacheCN 人工智能知識(shí)樹(shù) v1.0

**ApacheCN 編程/大數(shù)據(jù)/數(shù)據(jù)科學(xué)/人工智能學(xué)習(xí)資源 2019.6**

**SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來(lái)做一些神奇好玩的事情吧**

發(fā)表評(píng)論

0條評(píng)論

xiaodao

男|高級(jí)講師

TA的文章

Pacificrack：2021年中國(guó)七夕節(jié)促銷VPS/2核/2G內(nèi)存/60G SSD/1T流量/支

面試小結(jié)（一）

css偽元素

CSS揭秘之《制作半透明邊框》

理解JavaScript變量和類型

Js處理頁(yè)面響應(yīng)式

JS設(shè)計(jì)模式之Facade（外觀）模式

Tasks(任務(wù)), microtasks(微任務(wù)), queues（隊(duì)列） and schedul

最新活動(dòng)