A. 機器學習中用來防止過擬合的方法有哪些
防止過擬合的方法:
1,從模型&數據角度。
獲取更多數據,你的模型可以存儲很多很多的信息,這意味著你輸入模型的訓練數據越多,模型就越不可能發生過擬合。原因是隨著你添加更多數據,模型會無法過擬合所有的數據樣本,被迫產生泛化以取得進步。
收集更多的數據樣本應該是所有數據科學任務的第一步,數據越多會讓模型的准確率更高,這樣也就能降低發生過擬合的概率。
2,數據增強&雜訊數據。
收集更多的數據會比較耗時耗力。如果沒有時間和精力做這個,應該嘗試讓你的數據看起來更多元化一些。利用數據增強的方法可以做到這一點,這樣模型每次處理樣本的時候,都會以不同於前一次的角度看待樣本。這就提高了模型從每個樣本中學習參數的難度。
3,簡化模型
即時你現在手中獲取了所有需要的數據,如果你的模型仍然過擬合訓練數據集,可能是因為模型過於強大。那麼你可以試著降低模型的復雜程度。
4,從訓練過程角度。
大部分情況下,模型會首先學習數據的正確分布,然後在某個時間點上開始對數據過擬合。通過識別模型是從哪些地方開始發生轉變的,那麼就可以在過擬合出現之前停止模型的學習過程。和前面一樣,通過查看隨著時間推移的訓練錯誤,就可以做到這一點。
5,從正則化角度。
正則化是指約束模型的學習以減少過擬合的過程。它可以有多種形式,下面我們看看部分形式。L1和L2正則化 正則化的一個最強大最知名的特性就是能向損失函數增加「懲罰項」(penalty)。
所謂『懲罰』是指對損失函數中的某些參數做一些限制。最常見的懲罰項是L1和L2:L1懲罰項的目的是將權重的絕對值最小化,L2懲罰項的目的是將權重的平方值最小化。
B. 數據分析能力不強,應該通過什麼方法加強
數據分析一般不需要編程能力,但是要有編程的邏輯思維能力:
1、要開發數據分析軟體以及程序,讓崗位人直觀看明白的話可以採用編程方式開發出來,這個就要編程能力。
2、懂業務。從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
3、懂管理。一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,後續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
4、懂分析。指掌握數據分析基本原理與一些有效的數據分析方法,並能靈活運用到實踐工作中,以便有效的開展數據分析。基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
5、懂工具。指掌握數據分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們不能依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
6、懂設計。懂設計是指運用圖表有效表達數據分析師的分析觀點,使分析結果一目瞭然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。
參考鏈接:http://ke..com/link?url=b8z_U8-QuI49JAGq#3
C. 淺析如何提高統計數據質量
統計數據是經濟社會發展的晴雨表,統計數據質量是統計工作的生命。統計數據質量從使用的要求上看,取決於准確性、及時性和完整性。准確性是統計數據質量在統計信息客觀真實性方面的體現,是統計數據使用者的首要要求。及時性是統計數據質量在統計信息的時間價值上的體現,是對統計數據形成和提供的高速度、快節奏、強效率的要求。完整性是統計數據在統計信息的內容含量上的體現,就是要求統計部門提供的統計數據在內容上應該包括使用者所需的所有項目,不能殘缺不全。隨著我國社會主義市場經濟體系的建立和完善,經濟領域呈現經濟利益多元化、經濟格局多樣化、經濟統計現化化的趨勢,統計工作面臨的困難和挑戰越來越大。縣(市、區)統計工作如何適應新形勢的要求,發揮統計在經濟社會發展中的作用,確保統計數據可信可靠。筆者認為要抓好以下幾方面的工作: 一、優化統計環境強化統計生態 統計生態是指統計組織賴以生存和發展的各種外部政治、體制、經濟、法律、社會、文化環境因素在相互聯系和動態演化中形成的有機整體。在惡劣的統計生態環境下,不可能有準確的統計數據,也不可能樹立統計的公信力。我們需要一個共建、共有、共保、共享的統計生態鏈,這是一項系統工程,需要社會各方共同努力。 第一要完善《統計法》。加強統計法制建設,提高法律的可操作性,加大執法力度,市場經濟就是法制經濟,我們一定要做到有法必依、執法必嚴、違法必究,保障統計生態環境的健康發展。統計機構必須是依照法律獨立設置的,並且統計機構在行政上應保持其獨立的地位。要健全統計法制建設,依法統計,尤其要嚴格執法。強有力的法律實施機制將使得違法成本極高,從而真正杜絕虛報、瞞報、偽造、篡改統計資料,阻撓統計執法檢查等統計違法行為的發生。三是要加大普法力度,廣泛宣傳《統計法》,增強社會各界的統計法制觀念,只有這樣才能依法統計,保證統計工作的順利進行和統計數據的客觀真實性。大力加強統計法制建設,提高依法行政水平。要與人大、政協、監察局、法制、司法等部門聯合開展執法大檢查,對違法案件進行處罰和曝光,增強各級領導和廣大統計員的統計法律意識,統計數據質量得到較大提高。 第二進一步完善各級統計部門機關管理制度。用制度管人管事,獎優罰劣,精神和物質鼓勵相結合;強力推進學習型統計局建設,深入開展「三個代表」、「保持共產黨員先進性學教活動」和機關作風建設,在統計系統上下形成講政治、講大局、講團結、比學習、比作風、比進步的良好風尚;加強領導班子決策能力建設,按照「三強五好」的要求切實加強領導班子建設和黨風廉政建設;狠抓統計職業道德教育,忠誠統計、愛崗敬業、恪盡職守、無私奉獻,爭創一流工作業績。五是抓辦公條件的改善,為幹部職工營造良好的工作環境。配備電腦,使辦公條件大為改善,工作效率顯著提高。 第三進一步理順統計管理體制,增強統計系統凝聚力。更好地體現整體性特點,發揮統計整體功能。為此,必須堅持行政管理與業務管理一致的原則,一方面在統計機構和制度上,提高獨立性和抗干擾能力,另一方面要建立約束機制,減少各方面的干預。這是科學管理的工作要求決定的,這樣有利於貫徹責權利的統一。 第四進一步增強縣(市)級統計局的力量。按照統計工作的流程對各級各類統計機構設置合理的內部機構進行系統優化。把統計局建設成為符合未來形勢發展要求的,靈敏、快速、高效、精乾的調查機構,提高效率,並使之適合網路時代的特點。各縣(市)可按照普查制度規定成立適應普查任務要求的普查機構,專司各項普查工作。 第五切實樹立統計大系統的觀念. 各級統計部門的領導要多為基層著想,為基層辦實事、解難事。在開展普查時,要貫徹受益者出錢的原則,按照受益大小分擔經費,使基層統計局的領導從為上級要經費的尷尬局面中解脫出來。上級統計部門要切實為基層統計幹部在待遇上排憂解難。一是爭取提高統計人員待遇上的有關政策,二是對經濟貧困縣(市)統計部門實行經濟扶貧,增加經濟投入,解決統計人員經濟待遇差的問題,確保統計幹部隊伍穩定。 第六改革完善考核評價體系。現行的考核評價體系很大程度是以統計數據為主要考核依據。考核是對一個地方經濟社會發展的評價,也是領導政績的體現。考核作為指揮棒,具有很強的引導性。近年來,各級各類的工作考核,在某種程度上發揮了一定的作用,但也存在不少問題:一是互相攀比,二是數據失真,三是圍繞考核想盡「辦法」拿名次。如果這些問題不能很好地解決,就會造成「聰明人」得益、老實人吃虧,從而挫傷大部人的積極性。因此,要逐步淡化考核工作或建立一種科學合理、客觀公正的考核體系,以引導各級領導樹立正確的政績觀,使統計數據不受包括政府在內的各方干擾,推進各項工作的順利開展。 二、改善統計方法 提高統計質量 提供高質量統計數據是統計工作的中心任務和根本職責,是統計事業改革和建設的出發點和歸宿點,亦是新時期和新形勢對統計工作的基本要求。1、樹立新的統計數據質量觀理念。提高統計數據質量是統計工作的一個永恆的主題。但是在不同時期對統計數據質量有不同的標准,明確新時期統計數據質量的涵義和概念,樹立全新的統計數據質量理念,是指導我們做好工作的前提和基礎。因此,對數據質量評估判斷標準的思維須從狹義轉向廣義,要從過去的只重視搜集生產轉為生產和營銷並重的觀念。要從過去單純注重提高數據准確性和及時性,擴展到提高數據的時效性、科學性多維的質量內涵,要從過去工作重點是收集上報搞准統計數據的工作思維中解脫出來,既要抓數據的准確性, 又要做好解讀統計數據, 開發統計分析研究成果。逐漸把滿足用戶需求的程度作為評價數據質量的標准。以新理念來確立新思路,制定新措施,開拓新局面。2、改革統計制度及方法。當前統計制度存在著調查方法單一、對全面報表的依賴仍然過多、指標體系不盡合理、任務繁重以及完成任務的條件脫節等問題,要解決這些問題就必須加快統計制度及調查方法的改革。首先,必須明確應收集哪些資料,官方統計機構的職能除了將這些數據收集、整理及出版外,還要對這些數據進行進一步的統計分析,或將數據分析工作交給社會研究機構,這些都必須以一定的制度形式予以規定。其次,建立一套更加完善的國民經濟核算體系及適應經濟增長方式轉變的統計指標體系,並且保證經確定的統計指標體系的全國統一和相對穩定,對指標的含義、統計口徑、計算方法都必須做出說明和界定范圍,同一指標不能有兩種口徑和隨意變更,這些也都必須以制度形式予以規定。一方面,這樣可以保證數據在時間上的可比性,使它能更好地反映現象發展的數量特徵;另一方面,有利於使用者根據指標的說明和按研究的需要對數據進行調整和分析,增強數據的適用性。此外應建立從實際出發的科學適用的統計調查方法體系,適當減少全面統計報表,推廣抽樣調查,注重效益、節省成本,提高時效,減少被調查者的負擔。3、建立完整規范的統計數據質量控制體系和統計數據質量監控評估中心。統計數據質量的監控與評估是一項復雜的、長期的系統工程,可在政府統計部門內建立權威的數據質量監控和評估中心,建立健全完善的統計數據產品質量管理體系,對統計數據生產全過程實行全面質量管理,提高統計數據的完整性和透明度。最近國家統計部門建立了自我檢查和評估制度,對國內生產總值、工業增加值、價格指數、社會消費品零售總額等主要的統計指標數據質量實行定期評估,它對於減少統計數據的誤差,提高統計數據的質量有著積極的作用。實際上,統計數據的監控與評估可以採用自我評估、監督評估與定性評估、定量評估相結合的方法。4、加強統計基礎建設工作,提高統計人員素質。統計基礎工作是整個統計工作的基石,要提高統計數據質量就必須加強基層統計組織的建設。一是狠抓基層統計機構的設立,統計人員的配備工作;二是加強對基層統計基礎工作的業務指導和統計人員的業務培訓,統計人員業務素質不斷提高;三是抓基層基礎規范化建設工作,針對部分鄉鎮統計力量薄弱,工作條件差,有些部門統計、行業統計工作削弱、人員精減、統計人員兼數職、統計台帳、原始記錄不全的狀況,必須採取多種有力措施,強化統計基礎工作;軟硬並舉,統計信息化工作再上新台階,爭取領導重視,充實統計信息化的硬體設施;統計信息化水平得到提升,使鄉鎮單位實現了聯網直報。 一方面,要加大資金投入,解決經費問題和改善基層統計組織的工作條件,提高先進統計設施在基層統計部門中的普及率和應用率。可以考慮建立部分數據的有償使用機制,幫助籌措更多的資金來更好地收集數據,以維持統計基層部門工作的正常進行 �幫助統計機構建立激勵機制,以獎勵那些對數據的搜集做出突出貢獻的人員。另一方面,要著手培養和提高基層工作人員的素質,採取定期培訓或考核的 辦法不斷提高基層工作人員的業務素質,使他們熟練掌握統計新知識、新方法,特別是現代統計調查、統計整理、統計分析技能和計算機應用技術,並做到培訓教育經常化、制度化、規范化,不斷提高統計人員的業務水平。同時,加強統計職業道德建設,樹立行業職業道德的優秀典型,弘揚務實求真、忠於職守的精神。
D. 圖像增強的常用方法有哪些
圖像增強可分成兩大類:頻率域法和空間域法。
前者把圖像看成一種二維信號,對其進行基於二維傅里葉變換的信號增強。採用低通濾波(即只讓低頻信號通過)法,可去掉圖中的雜訊;採用高通濾波法,則可增強邊緣等高頻信號,使模糊的圖片變得清晰。
後者空間域法中具有代表性的演算法有局部求平均值法和中值濾波(取局部鄰域中的中間像素值)法等,它們可用於去除或減弱雜訊。
方法
圖像增強的方法是通過一定手段對原圖像附加一些信息或變換數據,有選擇地突出圖像中感興趣的特徵或者抑制(掩蓋)圖像中某些不需要的特徵,使圖像與視覺響應特性相匹配。
在圖像增強過程中,不分析圖像降質的原因,處理後的圖像不一定逼近原始圖像。圖像增強技術根據增強處理過程所在的空間不同,可分為基於空域的演算法和基於頻域的演算法兩大類。
灰度變換主要針對獨立的像素點進行處理,由輸入像素點的灰度值決定相應的輸出像素點的灰度值,通過改變原始圖像數據所佔的灰度范圍而使圖像在視覺上得到改善。
1.1 線性灰度增強
線性灰度增強,將圖像中所有點的灰度按照線性灰度變換函數進行變換。在曝光不足或過度的情況下,圖像的灰度可能局限在一個很小的灰度范圍內,這時圖像可能會很模糊不清。利用一個線性單值函數對圖像內的每一個像素做線性拓展,將會有效地改善圖像的視覺效果。
E. 怎樣把手機4G數據信號加強
信號增強步驟(以SM-9009W為例)
升級前:建議連接至一個有效的WLAN(WIFI);如果沒有WIFI而需要使用數據連接下載,數據流量費按本地流量標准資費收費。
第一步:下載升級包。以三星 SM-G9009W為例,進入設定界面->點擊關於設備>點擊系統更新>點擊立即更新;之後手機會先注冊,注冊成功後停留在此界面,再點擊一次立即更新,升級包開始下載,直至下載完成。
第二步:安裝升級包。點擊安裝後等待10秒左右手機將重啟,並進入升級狀態,升級完成後手機自動重啟,再次進入撥號盤查看手機軟體版本(撥號盤輸入*#0000#),確認升級後的手機軟體版本。升級後的手機軟體版本如下:
SM-G9009W(S5)所對應的手機版本為KEU1ANH7;
SM-N7509V(Note3 Lite)對應的手機版本為KEUANH4;
SM-G3589W(Core Lite)對應的手機版本為KEU1ANH2。
第三步:啟動信號增強功能。進入撥號盤,輸入*#147235981#,輸入命令後等待3-4秒,手機重啟即可完成操作。對手機成功進行信號增強之後,可以更流暢使用電信4G網路。
F. 機器學習中用來防止過擬合的方法有哪些
根據獨立同分布假設,更多的數據往往對樣本空間的整體分布估計更准確,不過實際應用中由於種種原因,並不一定總能獲得足夠的數據,例如成本問題。通俗得講,數據機擴增即需要得到更多的符合要求的數據,即和已有的數據是獨立同分布的,或者近似獨立同分布的。一般有以下方法:從數據源頭採集更多數據;復制原有數據並加上隨機雜訊;重采樣;根據當前數據集估計數據分布參數,使用該分布產生更多數據等。正則化是假設模型的參數服從先驗概率,即為模型參數添加先驗,不同的正則化方式的先驗分布不一樣(L1正則是拉普拉斯先驗,而L2正則則是高斯先驗)。規定了參數的分布,降低了模型的復雜度,增強對雜訊和異常點的抗干擾能力。
G. 我用MATLAB對圖像進行了增強處理,因為用了幾種方法,我想比較一下這些方法哪一個好些。
如果不同方法之間性能差別比較大,通常可以直觀地觀察出哪個更好,不少時候這也是進行處理希望達到的效果。如果是灰度圖,使用均值只說明亮度的差別,難以用於比較增強效果(雖然通過灰度變換的確可以增強圖像,但是效果通常可以直接觀察出來)。從數據的角度,使用灰度直方圖有一定幫助(參見《數字圖像處理》「直方圖均化」部分)。另外還得看增強演算法的目的,如果是為了降噪,那麼使用各種演算法各自對不同的雜訊類型進行處理,然後比較所得結果,更能說明演算法的針對性及性能特點。 關於專門的描述,建議參考岡薩雷斯的《數字圖像處理》,綠色十六開,對於灰度變換,輪廓圖區,濾波等增強技術常見的技術都有詳盡的描述和比較。
H. 產品經理提高自身的數據分析能力的方法有哪些
這種東西還是要自己平時多關注,努力從各種維度去看數據,當然首先自己要先學會處理數據,因為如果你都不知道數據是怎麼一步一步做出來的,又怎麼能夠分析的透徹呢?
其實最主要的是,你需要把公司的盈利當做自己的事情來做,只要一心想提高銷售,就可以想出無數辦法,分析出無數個點。保證自己每天打開的電腦的第一件事就是看昨天的銷售和今天的庫存。
先提升自己處理數據的能力吧,平時多關注銷售和一些競品信息,祝你成功!
I. 數據增強的方法有哪些
1 什麼是數據增強?
數據增強也叫數據擴增,意思是在不實質性的增加數據的情況下,讓有限的數據產生等價於更多數據的價值。
比如上圖,第1列是原圖,後面3列是對第1列作一些隨機的裁剪、旋轉操作得來。
每張圖對於網路來說都是不同的輸入,加上原圖就將數據擴充到原來的10倍。假如我們輸入網路的圖片的解析度大小是256×256,若採用隨機裁剪成224×224的方式,那麼一張圖最多可以產生32×32張不同的圖,數據量擴充將近1000倍。雖然許多的圖相似度太高,實際的效果並不等價,但僅僅是這樣簡單的一個操作,效果已經非凡了。
如果再輔助其他的數據增強方法,將獲得更好的多樣性,這就是數據增強的本質。
數據增強可以分為,有監督的數據增強和無監督的數據增強方法。其中有監督的數據增強又可以分為單樣本數據增強和多樣本數據增強方法,無監督的數據增強分為生成新的數據和學習增強策略兩個方向。
2 有監督的數據增強
有監督數據增強,即採用預設的數據變換規則,在已有數據的基礎上進行數據的擴增,包含單樣本數據增強和多樣本數據增強,其中單樣本又包括幾何操作類,顏色變換類。
2.1. 單樣本數據增強
所謂單樣本數據增強,即增強一個樣本的時候,全部圍繞著該樣本本身進行操作,包括幾何變換類,顏色變換類等。
(1) 幾何變換類
幾何變換類即對圖像進行幾何變換,包括翻轉,旋轉,裁剪,變形,縮放等各類操作,下面展示其中的若干個操作。
水平翻轉和垂直翻轉
隨機旋轉
隨機裁剪
變形縮放
翻轉操作和旋轉操作,對於那些對方向不敏感的任務,比如圖像分類,都是很常見的操作,在caffe等框架中翻轉對應的就是mirror操作。
翻轉和旋轉不改變圖像的大小,而裁剪會改變圖像的大小。通常在訓練的時候會採用隨機裁剪的方法,在測試的時候選擇裁剪中間部分或者不裁剪。值得注意的是,在一些競賽中進行模型測試時,一般都是裁剪輸入的多個版本然後將結果進行融合,對預測的改進效果非常明顯。
以上操作都不會產生失真,而縮放變形則是失真的。
很多的時候,網路的訓練輸入大小是固定的,但是數據集中的圖像卻大小不一,此時就可以選擇上面的裁剪成固定大小輸入或者縮放到網路的輸入大小的方案,後者就會產生失真,通常效果比前者差。
(2) 顏色變換類
上面的幾何變換類操作,沒有改變圖像本身的內容,它可能是選擇了圖像的一部分或者對像素進行了重分布。如果要改變圖像本身的內容,就屬於顏色變換類的數據增強了,常見的包括雜訊、模糊、顏色變換、擦除、填充等等。
基於雜訊的數據增強就是在原來的圖片的基礎上,隨機疊加一些雜訊,最常見的做法就是高斯雜訊。更復雜一點的就是在面積大小可選定、位置隨機的矩形區域上丟棄像素產生黑色矩形塊,從而產生一些彩色雜訊,以Coarse Dropout方法為代表,甚至還可以對圖片上隨機選取一塊區域並擦除圖像信息。
添加Coarse Dropout雜訊
顏色變換的另一個重要變換是顏色擾動,就是在某一個顏色空間通過增加或減少某些顏色分量,或者更改顏色通道的順序。
顏色擾動
還有一些顏色變換,本文就不再詳述。
幾何變換類,顏色變換類的數據增強方法細致數還有非常多,推薦給大家一個git項目:
https://github.com/aleju/imgaug
預覽一下它能完成的數據增強操作吧。
2.2. 多樣本數據增強
不同於單樣本數據增強,多樣本數據增強方法利用多個樣本來產生新的樣本,下面介紹幾種方法。
(1) SMOTE[1]
SMOTE即Synthetic Minority Over-sampling Technique方法,它是通過人工合成新樣本來處理樣本不平衡問題,從而提升分類器性能。
類不平衡現象是很常見的,它指的是數據集中各類別數量不近似相等。如果樣本類別之間相差很大,會影響分類器的分類效果。假設小樣本數據數量極少,如僅占總體的1%,則即使小樣本被錯誤地全部識別為大樣本,在經驗風險最小化策略下的分類器識別准確率仍能達到99%,但由於沒有學習到小樣本的特徵,實際分類效果就會很差。
SMOTE方法是基於插值的方法,它可以為小樣本類合成新的樣本,主要流程為:
第一步,定義好特徵空間,將每個樣本對應到特徵空間中的某一點,根據樣本不平衡比例確定好一個采樣倍率N;
第二步,對每一個小樣本類樣本(x,y),按歐氏距離找出K個最近鄰樣本,從中隨機選取一個樣本點,假設選擇的近鄰點為(xn,yn)。在特徵空間中樣本點與最近鄰樣本點的連線段上隨機選取一點作為新樣本點,滿足以下公式:
第三步,重復以上的步驟,直到大、小樣本數量平衡。
該方法的示意圖如下。
在python中,SMOTE演算法已經封裝到了imbalanced-learn庫中,如下圖為演算法實現的數據增強的實例,左圖為原始數據特徵空間圖,右圖為SMOTE演算法處理後的特徵空間圖。
(2) SamplePairing[2]
SamplePairing方法的原理非常簡單,從訓練集中隨機抽取兩張圖片分別經過基礎數據增強操作(如隨機翻轉等)處理後經像素以取平均值的形式疊加合成一個新的樣本,標簽為原樣本標簽中的一種。這兩張圖片甚至不限制為同一類別,這種方法對於醫學圖像比較有效。
經SamplePairing處理後可使訓練集的規模從N擴增到N×N。實驗結果表明,因SamplePairing數據增強操作可能引入不同標簽的訓練樣本,導致在各數據集上使用SamplePairing訓練的誤差明顯增加,而在驗證集上誤差則有較大幅度降低。
盡管SamplePairing思路簡單,性能上提升效果可觀,符合奧卡姆剃刀原理,但遺憾的是可解釋性不強。
(3) mixup[3]
mixup是Facebook人工智慧研究院和MIT在「Beyond Empirical Risk Minimization」中提出的基於鄰域風險最小化原則的數據增強方法,它使用線性插值得到新樣本數據。
令(xn,yn)是插值生成的新數據,(xi,yi)和(xj,yj)是訓練集隨機選取的兩個數據,則數據生成方式如下
λ的取值范圍介於0到1。提出mixup方法的作者們做了豐富的實驗,實驗結果表明可以改進深度學習模型在ImageNet數據集、CIFAR數據集、語音數據集和表格數據集中的泛化誤差,降低模型對已損壞標簽的記憶,增強模型對對抗樣本的魯棒性和訓練生成對抗網路的穩定性。
SMOTE,SamplePairing,mixup三者思路上有相同之處,都是試圖將離散樣本點連續化來擬合真實樣本分布,不過所增加的樣本點在特徵空間中仍位於已知小樣本點所圍成的區域內。如果能夠在給定范圍之外適當插值,也許能實現更好的數據增強效果。
3 無監督的數據增強
無監督的數據增強方法包括兩類:
(1) 通過模型學習數據的分布,隨機生成與訓練數據集分布一致的圖片,代表方法GAN[4]。
(2) 通過模型,學習出適合當前任務的數據增強方法,代表方法AutoAugment[5]。
3.1 GAN
關於GAN(generative adversarial networks),我們已經說的太多了。它包含兩個網路,一個是生成網路,一個是對抗網路,基本原理如下:
(1) G是一個生成圖片的網路,它接收隨機的雜訊z,通過雜訊生成圖片,記做G(z) 。
(2) D是一個判別網路,判別一張圖片是不是「真實的」,即是真實的圖片,還是由G生成的圖片。
GAN的以假亂真能力就不多說了。
2 Autoaugmentation[5]
AutoAugment是Google提出的自動選擇最優數據增強方案的研究,這是無監督數據增強的重要研究方向。它的基本思路是使用增強學習從數據本身尋找最佳圖像變換策略,對於不同的任務學習不同的增強方法,流程如下:
(1) 准備16個常用的數據增強操作。
(2) 從16個中選擇5個操作,隨機產生使用該操作的概率和相應的幅度,將其稱為一個sub-policy,一共產生5個sub-polices。
(3) 對訓練過程中每一個batch的圖片,隨機採用5個sub-polices操作中的一種。
(4) 通過模型在驗證集上的泛化能力來反饋,使用的優化方法是增強學習方法。
(5) 經過80~100個epoch後網路開始學習到有效的sub-policies。
(6) 之後串接這5個sub-policies,然後再進行最後的訓練。
總的來說,就是學習已有數據增強的組合策略,對於門牌數字識別等任務,研究表明剪切和平移等幾何變換能夠獲得最佳效果。