上海獵諾工貿(mào)有限公司

主營:五金交電、機(jī)電設(shè)備、叉車、計(jì)算機(jī)及配件
您現(xiàn)在的位置: 照明工業(yè) > 燈具配附件 > 支架 > 上海獵諾工貿(mào)有限公司 > 供求信息
載入中……
[供應(yīng)]智能數(shù)據(jù)非常高的擬合精度需注意幾點(diǎn)
點(diǎn)擊圖片放大
  • 產(chǎn)品產(chǎn)地:
  • 產(chǎn)品品牌:
  • 包裝規(guī)格:
  • 產(chǎn)品數(shù)量:0
  • 計(jì)量單位:
  • 產(chǎn)品單價(jià):0
  • 更新日期:2017-10-11 14:07:32
  • 有效期至:2018-10-11
  • 收藏此信息
智能數(shù)據(jù)非常高的擬合精度需注意幾點(diǎn) 詳細(xì)信息




下列是一些具體的處理方法名稱:


該方法主要是對大類進(jìn)行處理。它會減少大類的觀測數(shù)來使得數(shù)據(jù)集平衡。這一辦法在數(shù)據(jù)集整體很大時(shí)較為適宜,它還可以通過降低訓(xùn)練樣本量來減少計(jì)算時(shí)間和存儲開銷。


欠采樣法共有兩類:隨機(jī)(Random)的和有信息的(Informative)。


隨機(jī)欠采樣法會隨機(jī)刪除大類的觀測直至數(shù)據(jù)集平衡。有信息的欠采樣法則會依照一個事先制定的準(zhǔn)則來刪去觀測。


有信息的欠采樣中,利用簡易集成算法(EasyEnsemble)和平衡級聯(lián)算法(BalanceCascade)往往能得到比較好的結(jié)果。這兩種算法也都很直白易懂。


簡易集成法:首先,它將從大類中有放回地抽取一些獨(dú)立樣本生成多個子集。然后,將這些子集和小類的觀測合并,再基于合并后的數(shù)據(jù)集訓(xùn)練多個分類器,以其中多數(shù)分類器的分類結(jié)果為預(yù)測結(jié)果。如你所見,整個流程和無監(jiān)督學(xué)習(xí)非常相似。


平衡級聯(lián)法:它是一種有監(jiān)督的學(xué)習(xí)法,首先將生成多個分類器,再基于一定規(guī)則系統(tǒng)地篩選哪些大類樣本應(yīng)當(dāng)被保留。


但欠采樣法有一個顯而易見的缺陷,由于要刪去不少觀測,使用該方法會使得大類損失不少重要信息。


2.過采樣法


這一方法針對小類進(jìn)行處理。它會以重復(fù)小類的觀測的方式來平衡數(shù)據(jù)。該方法也被稱作升采樣(Upsampling)。和欠采樣類似,它也能分為隨機(jī)過采樣和有信息的過采樣兩類。


隨機(jī)過采樣會將小類觀測隨機(jī)重復(fù)。有信息過采樣也是遵循一定的準(zhǔn)則來人工合成小類觀測。


使用該方法的一大優(yōu)勢是沒有任何信息損失。缺點(diǎn)則是由于增加了小類的重復(fù)樣本,很有可能導(dǎo)致過擬合(譯者注:計(jì)算時(shí)間和存儲開銷也增大不少)。我們通過該方法可以在訓(xùn)練集上得到非常高的擬合精度,但在測試集上預(yù)測的表現(xiàn)則可能變得愈發(fā)糟糕。
本文來源:chinapex.cn/solutions/data_cloud
     chinapex.cn/news/company-news

同類型其他產(chǎn)品
免責(zé)聲明:所展示的信息由企業(yè)自行提供,內(nèi)容的真實(shí)性、和合法性由發(fā)布企業(yè)負(fù)責(zé),浙江民營企業(yè)網(wǎng)對此不承擔(dān)任何保證責(zé)任。
友情提醒:普通會員信息未經(jīng)我們?nèi)斯ふJ(rèn)證,為了保障您的利益,建議優(yōu)先選擇浙商通會員。

關(guān)于我們 | 友情鏈接 | 網(wǎng)站地圖 | 聯(lián)系我們 | 最新產(chǎn)品

浙江民營企業(yè)網(wǎng) m.peada.cn 版權(quán)所有 2002-2010

浙ICP備11047537號-1