如何進(jìn)行特征向量的歸一化?
1.定義數(shù)據(jù)的歸一化,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間。
2.方法1)最小-最大歸一化這種歸一化方法也稱為偏差歸一化,將結(jié)果值映射到[0,1],轉(zhuǎn)換函數(shù)如下:應(yīng)用場(chǎng)景:當(dāng)涉及距離測(cè)量、協(xié)方差計(jì)算和數(shù)據(jù)不符合正交正態(tài)分布時(shí),可以使用第一種方法或其他歸一化方法(不包括Z-score方法)。例如,在圖像處理中,RGB圖像被轉(zhuǎn)換成灰度圖像,并且它們的值被限制在[0,255]的范圍內(nèi)。2)Z-Score標(biāo)準(zhǔn)化法的數(shù)據(jù)經(jīng)過(guò)處理后符合標(biāo)準(zhǔn)正態(tài)分布,即平均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)換函數(shù)為:其中μ為所有樣本數(shù)據(jù)的平均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。應(yīng)用場(chǎng)景:在分類和聚類算法中,當(dāng)需要距離來(lái)度量相似度,或者使用PCA技術(shù)降維時(shí),Z-scor:log10(x),即以10為底的對(duì)數(shù)轉(zhuǎn)換函數(shù),對(duì)應(yīng)的歸一化方法為:xlog10(x)/log10(max),其中max代表樣本數(shù)據(jù)的最大值。并且所有樣本數(shù)據(jù)應(yīng)大于或等于反正切函數(shù)變換法。反正切函數(shù)可以用來(lái)歸一化數(shù)據(jù),即xatan(x)*(2/pi)。需要注意的是,如果要映射的區(qū)間是[0,1],那么數(shù)據(jù)應(yīng)該大于等于0,小于0的數(shù)據(jù)將被映射到[-1,0]區(qū)間。L2范數(shù)歸一化方法L2范數(shù)歸一化是指特征向量中的每個(gè)元素除以向量。
3.角色那么我們?yōu)槭裁匆獦?biāo)準(zhǔn)化數(shù)據(jù)呢?舉個(gè)例子:假設(shè)是預(yù)測(cè)房?jī)r(jià)的例子,自變量是面積,房間數(shù)是兩個(gè),因變量是房?jī)r(jià)。那么我們可以得到公式如下:YYθ1xθ2xθ_1x_1xθ_2x_2θ。我們給出兩個(gè)圖來(lái)表示尋找數(shù)據(jù)是否均勻化的最優(yōu)解的過(guò)程:非歸一化:歸一化后:我們?cè)趯ふ易顑?yōu)解,也就是在使損失函數(shù)值最小的θ1和θ2中。上面兩個(gè)圖代表了損失函數(shù)的等高線??梢钥闯觯瑪?shù)據(jù)歸一化后,最優(yōu)解的優(yōu)化過(guò)程會(huì)明顯變得平滑,更容易正確收斂到最優(yōu)解。
4.總結(jié)簡(jiǎn)而言之,歸一化的目的是將預(yù)處理后的數(shù)據(jù)限制在一定的范圍內(nèi)(如[0,1]或[-1,1]),從而消除奇異樣本數(shù)據(jù)帶來(lái)的不利影響。當(dāng)然,如果沒(méi)有奇異樣本數(shù)據(jù),則可能不執(zhí)行歸一化。
數(shù)據(jù)處理方法?
常用數(shù)據(jù)處理方法
有時(shí)候更多的數(shù)據(jù)處理是從語(yǔ)言的角度調(diào)用不同的API來(lái)處理數(shù)據(jù)。但是從商業(yè)的角度來(lái)說(shuō),我很少去想。最近從業(yè)務(wù)角度了解了常用的數(shù)據(jù)處理方法,總結(jié)如下:
標(biāo)準(zhǔn)化:標(biāo)準(zhǔn)化是數(shù)據(jù)預(yù)處理的一種,目的是去除維度或方差對(duì)分析結(jié)果的影響。功能:1。消除樣本尺寸的影響;2.消除樣本方差的影響。主要用于數(shù)據(jù)預(yù)處理。
歸一化:對(duì)每個(gè)獨(dú)立樣本進(jìn)行縮放,使樣本具有一個(gè)單位LP范數(shù)。