特征抽取步驟是模式識別系統(tǒng)的核心和關鍵步驟之一,該步驟直接影響到系統(tǒng)性能的優(yōu)劣。作為模式識別特征抽取領域的一次技術革命,核方法具有將線性不可分離數據變換為線性可分離數據的優(yōu)越性能,從而為獲得高分類正確率提供保障。核方法在模式識別、機器學習、計算機視覺、工業(yè)自動化與圖像處理等領域的應用方興未艾。
作為國內首部專門研究核方法的專著,《模式識別中的核方法及其應用》力圖繞開晦澀的理論分析,從應用的角度對核方法及其優(yōu)化進行形象而直觀的闡述,并結合人臉識別、性別分類、字符識別等應用實例以及機器學習領域的基準數據集進行介紹。《模式識別中的核方法及其應用》在核方法的基礎上,較為詳細地總結了作者近幾年的研究成果。全書共10章,主要內容包括:核方法簡介,核方法目標函數與核方法改進,特征抽取結果的逼近與核方法改造,訓練集的分析與核方法改造,聯合不同核方法的特征抽取方案,基于特征相關分析的核方法以及核函數參數選擇問題,各核方法間理論聯系的分析,以及基于核的非線性特征抽取框架。
《模式識別中的核方法及其應用》既可作為計算機科學與技術、信息技術、自動化、電子工程等專業(yè)的科研用書和補充教材,還適合從事模式識別、生物特征識別、機器學習、計算機視覺、工業(yè)自動化、圖像處理等研究的技術人員參考使用。
核方法是20世紀90年代模式識別與機器學習領域興起的一場技術性革命。在繼承非線性方法優(yōu)點的基礎上,核方法以清晰、簡潔的形式為研究者指出了一條在模式識別與機器學習領域應用非線性技術的道路。其優(yōu)勢在于允許研究者在原始數據對應的高維空間使用線性方法來分析和解決問題,且能有效地規(guī)避“維數災難”。在此之前,盡管研究者們很早就認識到將數據映射到高維空間有助于提高數據的可分性,但由于求解非線性映射的計算代價問題,一直沒有找到好的實現途徑。在模式識別的特征抽取領域,核方法最具特色之處在于其雖等價于先將原數據通過非線性映射變換到一高維空間后的線性特征抽取手段,但其不需要執(zhí)行相應的非線性變換,也不需知道究竟選擇何種非線性映射關系。與此同時,研究者可通過選擇不同的核函數及其參數來調節(jié)相應的特征抽取效果。雖然具體的非線性映射關系是未知的,但由于核函數是非線性映射關系的具體反映(核函數指代特征空間中兩個樣本向量間的內積),通過對核函數及其參數進行選擇即可達到對非線性映射關系進行優(yōu)化的目的。目前,核方法已大量應用到機器學習、模式識別、生物特征識別、生物信息學、數據挖掘、機器視覺、圖像去噪、工業(yè)自動化以及機械故障診斷等領域中。
盡管核方法相對普通的非線性方法具有突出的優(yōu)勢,但在實際應用中仍然面臨大訓練集下實現效率低甚至不能實時應用的缺點。眾所周知,利用線性方法對一個樣本抽取特征時,只需將該樣本投影到訓練階段得到的一個確定的變換矩陣(一組變換向量)上即可。而核方法對一個樣本進行特征抽取時,需計算該樣本與所有訓練樣本之間的核函數。因此,核方法的特征抽取效率會隨著訓練樣本集的增大而下降。
第1章 引論
1.1 解決模式識別問題的技術框架
1.2 變換技術與特征抽取
1.3 非線性變換與特征抽取
1.4 核方法的發(fā)展及應用
1.4.1 核方法的發(fā)展
1.4.2 核方法的應用
1.5 本書所關注的問題
第2章 核方法簡介
2.1 KMSE及其改進
2.1.1 MSE:KMSE的起源
2.1.2 KMSE的形式化描述
2.1.3 KMSE的改進及方程表達
2.2 KPCA與特征抽取
2.2.1 PCA描述
2.2.2 PCA中核函數的引入
2.2.3 基于KPCA的特征抽取
2.3 核Fisher鑒別分析
2.3.1 FDA的思路及描述
2.3.2 KFDA的導出
2.3.3 KFDA的改進及方程
2.3.4 基于KFDA及其改進的特征抽取形式
2.4 SVM簡介
2.5 核回歸
2.6 本章小結
第3章 核方法目標函數及其優(yōu)化方法
3.1 Fisher準則的變形形式
3.2 選擇顯著訓練樣本的算法
3.3 分類實現
3.4 針對多類問題的KFDA優(yōu)化方案
3.5 實驗
3.5.1 基準數據集實驗結果
3.5.2 Yale人臉數據庫實驗結果
3.5.3 性別分類實驗結果
3.5.4 結論
3.6 本章小結
第4章 特征抽取結果的逼近與核方法改造
4.1 簡單的數值逼近觀點及核方法改造
4.1.1 KMSE優(yōu)化方案及算法
4.1.2 KMSE及其優(yōu)化模型在多類問題中的應用
4.1.3 實驗結果
4.1.4 結論
4.2 適用于KMSE優(yōu)化的一個特殊方法
4.2.1 節(jié)點的選擇
4.2.2 分析與討論
4.2.3 實驗
4.2.4 小結
4.3 另一種數值分析的觀點
4.3.1 FKMSE算法
4.3.2 時間復雜度分析
4.3.3 實驗
4.4 本章小結
第5章 訓練集的分析及核方法改造
5.1 KMSE改進思路
5.1.1 KMSE模型再分析
5.1.2 改進KMSE的思路與算法
5.2 實驗
5.3 本章 小結
第6章 聯合不同核方法的特征抽取方案
6.1 利用KPCA確定KMSE的節(jié)點
6.2 算法的進一步分析
6.3 實驗分析
6.4 本章小結
第7章 基于特征相關分析的核方法改進
7.1 改進思路及算法
7.2 改進KMSE的理論分析
7.3 時間復雜度分析
7.4 實驗分析
7.4.1 實驗一
7.4.2 實驗二
7.4.3 實驗三
7.5 本章小結
第8章 核函數參數選擇
8.1 基于最小誤差的KMSE核參數選擇
8.1.1 最優(yōu)參數選擇方案的設計
8.1.2 實驗
8.1.3 結論與討論
8.2 KDA的核函數參數選擇問題
8.2.1 引言
8.2.2 最優(yōu)參數確定算法
8.2.3 實驗
8.2.4 結論
8.3 選擇KMSE核參數的解析方法
8.4 本章小結
第9章 各核方法理論聯系及再分析
9.1 KPCA與KFDA間聯系分析
9.2 KMSE與其他核方法間的關聯分析
9.2.1 KMSE與KFDA間等效性討論
9.2.2 KMSE與LS-SVM等效性分析
9.3 核方法改進的再探討
9.4 核方法研究動態(tài)
9.5 小結
第10章 基于產生核的非線性特征抽取框架
10.1 引言
10.2 從函數到產生核
10.2.1 核的基本概念
10.2.2 依據函數得出產生核
10.3 產生核與GKPCA
10.3.1 KPCA的特征方程及其變形
10.3.2 GKPCA
10.3.3 GKPCA的一個等效實現方案
10.4 產生核與KFDA
10.4.1 KFDA回顧
10.4.2 GKFD
10.4.3 FMS-LDA
10.4.4 前文三方法的等效關系
10.4.5 兩類核相關的特征抽取方法
10.5 實驗
10.6 本章小結
參考文獻
這些理論也為核方法的飛速發(fā)展奠定了基石。但線性方法有其固有的局限性,例如,異或問題雖然簡單,但是線性方法卻無力解決。
2.第二階段:一般非線性方法
可以說非線性方法的模式識別應用主要歸功于神經網絡研究的發(fā)展。美國生物物理學家Hopfield的研究成果以及Rumelhart等人提出的反向傳播學習算法糾等都為模式識別與機器學習領域的非線性革命貢獻了力量,F實世界存在大量的非線性可分問題,非線性技術能將這些問題變換為線性可分問題,從而使這些問題的分類變得非常容易。在模式識別問題上取得的成功是非線性革命重要性的有力說明。但這時候的非線性算法建立在不完全統(tǒng)計分析的基礎上,研究者對此類學習機的理解并不深刻,除了以上啟發(fā)式非線性方法,另一類非線性技術一般建立在非線性映射的基礎之上,而非線性映射的顯式求解相對于線性情況要復雜得多,不僅求解的計算效率比較低下,而且某些大規(guī)模的學習模型甚至不可解。
3.第三階段:核方法的引入
20世紀90年代中期,出現了基于核函數的模式識別方法。這種方法不僅使我們能高效地對數據分量間存在非線性關系的數據進行模式分析,而且方法本身建立在嚴格的統(tǒng)計分析基礎之上,與線性統(tǒng)計分析方法一樣有著扎實的理論背景。總的來說,核方法有以下兩個優(yōu)勢:一是它在線性與非線性學習機間架起了一座橋梁,可以通過核空間的線性模型來解決非線性問題;二是引入核函數后借助于核技巧,使研究者不必顯式地進行復雜的高維非線性映射。
目前關于核方法的研究熱點有以下幾個方面。
。1)降低核方法計算復雜度。支持向量機的應用受限制的一個很重要原因是需要求解凸二次優(yōu)化問題,對于大規(guī)模樣本的數據集,其計算具有較高的時間和空間復雜度。對于其他核方法來講,特征抽取效率也具有與訓練樣本個數相關,且訓練樣本越多計算代價越大的缺點。因此,如何在不影響分類性能的前提下,降低計算復雜度、建立高效的基于核方法的特征抽。ㄗ儞Q)方法,成了核方法一個很重要的研究方向。
。2)核參數優(yōu)化。