下列是一些具體的處理方法名稱:
該方法主要是對大類進(jìn)行處理。它會減少大類的觀測數(shù)來使得數(shù)據(jù)集平衡。這一辦法在數(shù)據(jù)集整體很大時(shí)較為適宜,它還可以通過降低訓(xùn)練樣本量來減少計(jì)算時(shí)間和存儲開銷。
欠采樣法共有兩類:隨機(jī)(Random)的和有信息的(Informative)。
隨機(jī)欠采樣法會隨機(jī)刪除大類的觀測直至數(shù)據(jù)集平衡。有信息的欠采樣法則會依照一個事先制定的準(zhǔn)則來刪去觀測。
有信息的欠采樣中,利用簡易集成算法(EasyEnsemble)和平衡級聯(lián)算法(BalanceCascade)往往能得到比較好的結(jié)果。這兩種算法也都很直白易懂。
簡易集成法:首先,它將從大類中有放回地抽取一些獨(dú)立樣本生成多個子集。然后,將這些子集和小類的觀測合并,再基于合并后的數(shù)據(jù)集訓(xùn)練多個分類器,以其中多數(shù)分類器的分類結(jié)果為預(yù)測結(jié)果。如你所見,整個流程和無監(jiān)督學(xué)習(xí)非常相似。
平衡級聯(lián)法:它是一種有監(jiān)督的學(xué)習(xí)法,首先將生成多個分類器,再基于一定規(guī)則系統(tǒng)地篩選哪些大類樣本應(yīng)當(dāng)被保留。
但欠采樣法有一個顯而易見的缺陷,由于要刪去不少觀測,使用該方法會使得大類損失不少重要信息。
2.過采樣法
這一方法針對小類進(jìn)行處理。它會以重復(fù)小類的觀測的方式來平衡數(shù)據(jù)。該方法也被稱作升采樣(Upsampling)。和欠采樣類似,它也能分為隨機(jī)過采樣和有信息的過采樣兩類。
隨機(jī)過采樣會將小類觀測隨機(jī)重復(fù)。有信息過采樣也是遵循一定的準(zhǔn)則來人工合成小類觀測。
使用該方法的一大優(yōu)勢是沒有任何信息損失。缺點(diǎn)則是由于增加了小類的重復(fù)樣本,很有可能導(dǎo)致過擬合(譯者注:計(jì)算時(shí)間和存儲開銷也增大不少)。我們通過該方法可以在訓(xùn)練集上得到非常高的擬合精度,但在測試集上預(yù)測的表現(xiàn)則可能變得愈發(fā)糟糕。
本文來源:chinapex.cn/solutions/data_cloud
     chinapex.cn/news/company-news
關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品
浙江民營企業(yè)網(wǎng) m.peada.cn 版權(quán)所有 2002-2010
浙ICP備11047537號-1