A. (轉載)流形學習(manifold learning)綜述
流形學習是數據處理領域中的一個廣泛概念,尤其在2000年後發展迅速。主要依賴於2000年Science雜志上發表的兩篇文章,如Isomap和LLE(局部線性嵌入),它們被認為是非線性降維方法的重要分支。
流形學習的核心概念在於,假設數據采樣自潛在的流形,即一組高維空間中的數據可以被表示在低維空間中,同時保持數據間的幾何性質。流形可以是任何維度的曲線或曲面,如球面、螺旋線等。為了在低維空間中表示流形上的點,我們通常將流形放入外圍空間中,用外圍空間的坐標來表示流形上的點。例如,球面作為三維空間中的二維曲面,可以通過三維歐幾里得空間中的坐標來表示,盡管球面上的點實際上只有兩個自由度。
流形學習的關鍵在於找到一組內在坐標(intrinsic coordinates),這些坐標可以在保持流形上點的幾何性質的同時,將數據從高維空間映射到低維空間。這個過程類似於參數化(parameterization),將復雜的幾何對象展平或展開,以更簡單的形式表示。低維表示在統計學中稱為內蘊特徵(intrinsic features),在視覺感知研究中則稱為內蘊坐標(intrinsic coordinates)。外圍空間的維數稱為觀察維數(observation),表示的是在實際測量或觀察時數據的維度。
在流形學習領域,Isomap和LLE是代表性方法。Isomap通過保持歐氏距離,利用多維尺度分析(MDS)來實現流形上的測地線距離的保持。LLE則假設局部區域是線性的,通過最小二乘法找到每個點在局部鄰域內的線性表示,進而刻畫流形的局部幾何性質。這些方法在演算法實現上都相對復雜,因此需要考慮一些優化技巧,如異常值檢測和嵌入縮放。
流形學習的研究者Dave Saul是該領域的先驅之一,他與Isomap和LLE的其他作者共同開創了流形學習的研究方向。LLE的作者之一Kilian Weinberger將學習核矩陣引入流形學習中,產生了廣泛影響,而Fei Sha則在機器學習領域嶄露頭角。這些成果不僅推動了流形學習的研究,也影響了凸優化領域。
在流形學習方法中,Laplacian Eigenmaps(拉普拉斯特徵映射)是一個全面的代表,它使用圖論方法來描述流形,並通過圖嵌入來尋找低維表示。雖然速度較快,但Laplacian Eigenmaps在處理異常值時具有較好的魯棒性。後來,Belkin和Niyogi分析了Laplacian Eigenmaps的收斂性,強調了數學分析的重要性。
Hessian Eigenmaps(哈密爾頓特徵映射)方法依賴於黎曼幾何,通過分析流形的局部性質來找到低維表示。然而,這種方法需要對流形有深入的數學理解,通常對初學者來說較為抽象,因此理解起來可能較為困難。
Local Tangent Space Alignment(局部切空間對齊)是浙江大學數學系教授Zhang Zhenyue及其團隊提出的方法,它通過計算局部切空間來實現流形學習。這種方法通過數值計算實現,直觀且易於理解,對流形學習領域產生了重要影響。
Maximum Variance Unfolding(最大方差展開)和S-Logmaps(S坐標地圖)等方法,各自在特定方面展現出獨特優勢,如使用核方法、半正定規劃和利用測地線長度進行低維表示等。
流形學習領域目前仍處於理論探討階段,實際應用中面臨雜訊敏感、采樣問題、收斂性以及在識別任務中線性化效果優於非線性方法的挑戰。盡管存在這些問題,流形學習仍是一個活躍的研究領域,尤其是在圖形學中得到了廣泛的應用。最近,偏微分幾何方法在流形學習中的應用顯示出巨大的潛力。