前 言
2019年10月25日,全國中醫(yī)藥大會隆重召開,習(xí)近平總書記對中醫(yī)藥的發(fā)展提出了“傳承精華,守正創(chuàng)新”的指示要求。數(shù)據(jù)的定量化、客觀化是中醫(yī)藥事業(yè)發(fā)展的其中的一個難題。中醫(yī)藥治療疾病,往往是中藥的多成分對應(yīng)病證的多靶點,因此采集的中醫(yī)藥數(shù)據(jù)存在多成分、多靶點和非線性等特點。以藥物的量效關(guān)系為例,化學(xué)藥藥效成分清楚,結(jié)構(gòu)明確,單成分指標量效關(guān)系的概念、原理、方法和應(yīng)用已形成較為完善的體系。中醫(yī)方藥復(fù)雜性和系統(tǒng)性主要體現(xiàn)在多成分、多靶點、多藥效指標以及非線性等特點上,反映其量效關(guān)系和組效關(guān)系的數(shù)據(jù)呈現(xiàn)多自變量、多因變量和非線性的特點,其復(fù)雜性是化學(xué)藥所不能比擬的,無法用化學(xué)藥的模型來闡釋中醫(yī)方藥的量效關(guān)系。研究適合中醫(yī)藥數(shù)據(jù)特點的多元分析方法顯得尤為迫切。
作為一種多元統(tǒng)計分析方法,偏最小二乘法是斯萬特·伍德(Svante Wold)等人1983年率先提出的。偏最小二乘法通過集成主成分分析、典型相關(guān)分析和多元線性回歸的基本功能,實現(xiàn)多因變量對多自變量的回歸建模,并且可以有效地解決多重共線性以及變量個數(shù)大于樣本數(shù)等問題。由于偏最小二乘法解決了傳統(tǒng)統(tǒng)計分析方法無法解決的難題,該方法在各領(lǐng)域的發(fā)展非常迅速,所涉及的學(xué)科不僅包含了化學(xué)、社會學(xué)和地質(zhì)學(xué),還逐漸擴充到生物學(xué)、醫(yī)學(xué)以及經(jīng)濟學(xué)等領(lǐng)域,同時也給中醫(yī)藥信息處理領(lǐng)域帶來了啟發(fā)。
作者工作單位江西中醫(yī)藥大學(xué)具有中藥固體制劑國家工程中心和現(xiàn)代中藥制劑教育部重點實驗室等高水平科研平臺,承擔(dān)了國家973、新藥創(chuàng)制重大專項、國家科技支撐計劃等課題,積累了大量實驗數(shù)據(jù)。自2006年起,作者帶領(lǐng)科研團隊承擔(dān)了多項重大科研項目的數(shù)據(jù)分析工作。本書提出的諸多偏最小二乘優(yōu)化方法都是在作者團隊分析處理中醫(yī)藥數(shù)據(jù)的實踐過程中產(chǎn)生的。針對數(shù)據(jù)預(yù)處理,作者提出了融合降噪稀疏自編碼器的偏最小二乘法和融合非徑向數(shù)據(jù)包絡(luò)分析的偏最小二乘法;針對中藥物質(zhì)基礎(chǔ)研究高維數(shù)據(jù)的特征選擇,作者提出了基于特征相關(guān)的偏最小二乘特征選擇方法、基于偏最小二乘的特征選擇方法以及基于灰色關(guān)聯(lián)的偏最小二乘輔助分析方法;針對具有多成分、多靶點、非線性關(guān)系的中醫(yī)藥數(shù)據(jù)分析,以及經(jīng)典偏最小二乘法內(nèi)部采用線性提取成分和線性回歸問題,作者提出了分別利用受限玻爾茲曼機、稀疏自編碼器、深度置信網(wǎng)絡(luò)實現(xiàn)非線性成分提取,以及分別融入模型樹、隨機森林和softmax實現(xiàn)非線性回歸的三種偏最小二乘優(yōu)化方法。這些優(yōu)化方法不但包含了理論、方法、步驟、實驗結(jié)果與分析,以及多種方法的結(jié)果比較,并且還采用UCI標準數(shù)據(jù)集進行實驗驗證,再以圖形和表格的形式實現(xiàn)結(jié)果的可視化。同時本書還提供一款數(shù)據(jù)分析軟件,該軟件集成了書中提出的優(yōu)化方法,為中醫(yī)藥科研工作者提供了一種實用工具。全書內(nèi)容的安排總體上遵從數(shù)據(jù)挖掘的一般步驟,包含數(shù)據(jù)挖掘和統(tǒng)計學(xué)基本知識、數(shù)據(jù)預(yù)處理、特征提取、特征選擇、建模、評估等,也符合中醫(yī)藥數(shù)據(jù)分析的基本要求,全書的理論、方法和實驗三者相互結(jié)合,循序漸進,條理清晰,圖文并茂,通俗易懂,適合對數(shù)理統(tǒng)計、機器學(xué)習(xí)感興趣的研究生以及從事醫(yī)藥數(shù)據(jù)分析研究的科研工作者學(xué)習(xí)參考。
在本書研究方法形成的過程中,作者得到了固體制劑國家工程中心和現(xiàn)代中藥制劑教育部重點實驗室科研團隊的大力支持和幫助。劉紅寧教授、王躍生教授、余日躍教授、徐國良教授、饒毅教授、黃麗萍教授、付劍江教授、劉波教授等提出了很好的指導(dǎo)意見,李冰濤副教授、陳銀芳副教授在數(shù)據(jù)采集、處理、解釋等方面提供了諸多具體的幫助,周麗老師在數(shù)學(xué)方面給予了指導(dǎo),衷心感謝各位老師的指導(dǎo)和幫助!在本書編寫過程中,碩士研究生郝竹林、朱志鵬、喻芳、曾青霞、羅計根、黃燦奕、李歡、賀佳、李郅琴、李天賜、楊延云、周婷、陳裕鳳、胡定興等對全書內(nèi)容進行了整理和校對,付出了辛勤的汗水,衷心感謝各位同學(xué)的幫助!在本書的撰寫過程中,作者閱讀、參考了大量國內(nèi)外文獻,借鑒了其方法與思路,在此對所涉及的專家和研究人員表示衷心的感謝。在本書出版過程中,清華大學(xué)出版社領(lǐng)導(dǎo)、審稿專家、責(zé)任編輯羅健提出了大量寶貴的修改意見和建議,為本書高質(zhì)量的出版付出了辛勤的勞動,表示衷心的感謝!此外,本書的出版得到了國家自然科學(xué)基金(項目編號:61363042、61562045、61762051)的支持,在此一并表示衷心的感謝!
經(jīng)過多年研究,我們認為偏最小二乘及其優(yōu)化方法不僅可以較好地處理多成分、多靶點以及多藥效指標的中醫(yī)藥數(shù)據(jù),而且可以較好地解決中醫(yī)藥數(shù)據(jù)存在的多重共線性、非線性特點以及高維小樣本等問題。但是在中醫(yī)藥領(lǐng)域中,有待解決的問題仍然很多,本書涉及的內(nèi)容僅能解決其中的小部分。希望本書的出版能夠起到拋磚引玉的作用,給讀者帶來靈感或者啟發(fā)。由于編寫時間和水平有限,本書難免有錯誤和不足之處,敬請各位專家和讀者批評指正。
作者
2021年2月1日
目 錄
第1章 緒論 001
第2章 數(shù)據(jù)基本表述 005
2.1 數(shù)據(jù)基本知識 005
2.2 度量中心趨勢 006
2.3 度量離散程度 010
2.4 正態(tài)分布 011
2.5 本章小結(jié) 012
第3章 數(shù)據(jù)常規(guī)預(yù)處理 013
3.1 數(shù)據(jù)清理 013
3.1.1 缺失值處理 013
3.1.2 噪聲數(shù)據(jù)處理 015
3.2 數(shù)據(jù)標準化 016
3.2.1 數(shù)據(jù)中心化處理 017
3.2.2 數(shù)據(jù)的無量綱化處理 018
3.2.3 標準化處理 018
3.3 本章小結(jié) 019
第4章 線性回歸分析 021
4.1 線性回歸模型 021
4.1.1 一元線性回歸 021
4.1.2 多元線性回歸 022
4.2 最小二乘法原理 023
4.2.1 計算方法的推導(dǎo) 023
4.2.2 總體參數(shù)估計量的性質(zhì) 027
4.3 多重共線性問題 028
4.3.1 問題的提出 028
4.3.2 多重共線性的影響 029
4.3.3 多重共線性的診斷 031
4.3.4 解決多重共線性的方法 033
4.4 模型效果評價指標 035
4.4.1 測定系數(shù) 035
4.4.2 均方根誤差 037
4.5 本章小結(jié) 038
第5章 偏最小二乘線性回歸模型 039
5.1 基本思路與算法原理 039
5.1.1 基本思路 039
5.1.2 算法原理 040
5.1.3 交叉有效性 043
5.2 算法的基本性質(zhì) 044
5.3 主要分析技術(shù) 048
5.3.1 主成分分析 048
5.3.2 典型相關(guān)性分析 051
5.3.3 T2橢圓圖輔助分析 054
5.3.4 變量投影重要性輔助分析技術(shù) 055
5.4 本章小結(jié) 056
第6章 偏最小二乘在中醫(yī)藥領(lǐng)域應(yīng)用的思路 057
6.1 中醫(yī)藥實驗數(shù)據(jù) 057
6.1.1 數(shù)據(jù)來源 057
6.1.2 數(shù)據(jù)特點 061
6.2 總體思路與分析策略 061
6.2.1 總體思路與目標 061
6.2.2 分析策略 063
6.3 本章小結(jié) 065
第7章 優(yōu)化偏最小二乘的數(shù)據(jù)預(yù)處理方法 066
7.1 問題的提出 066
7.2 基于降噪稀疏自編碼器的偏最小二乘缺失值處理 067
7.2.1 降噪稀疏自編碼器 067
7.2.2 優(yōu)化模型的建立 070
7.2.3 實驗設(shè)計與結(jié)果分析 071
7.3 基于非徑向數(shù)據(jù)包絡(luò)分析的偏最小二乘噪聲處理 074
7.3.1 非徑向數(shù)據(jù)包絡(luò)分析 074
7.3.2 優(yōu)化模型的建立 076
7.3.3 實驗設(shè)計與結(jié)果分析 080
7.4 本章小結(jié) 083
第8章 優(yōu)化偏最小二乘輔助特征選擇研究 084
8.1 問題的提出 084
8.2 特征選擇方法 084
8.2.1 相關(guān)定義 085
8.2.2 特征選擇的過程 086
8.2.3 方法的類型 087
8.3 基于特征相關(guān)的偏最小二乘特征選擇 088
8.3.1 基于相關(guān)性的特征選擇方法 088
8.3.2 優(yōu)化模型的建立 089
8.3.3 實驗設(shè)計與結(jié)果分析 091
8.4 基于L1正則項的偏最小二乘特征選擇 094
8.4.1 LASSO方法 094
8.4.2 優(yōu)化模型的建立 098
8.4.3 實驗設(shè)計與結(jié)果分析 102
8.5 基于灰色關(guān)聯(lián)的偏最小二乘特征選擇 111
8.5.1 灰色關(guān)聯(lián)分析 111
8.5.2 優(yōu)化模型的建立 112
8.5.3 實驗設(shè)計與結(jié)果分析 116
8.6 本章小結(jié) 118
第9章 偏最小二乘成分提取的非線性優(yōu)化模型 120
9.1 問題的提出 120
9.2 融合受限玻爾茲曼機的偏最小二乘優(yōu)化模型 121
9.2.1 受限玻爾茲曼機 121
9.2.2 優(yōu)化模型的建立 124
9.2.3 實驗設(shè)計與結(jié)果分析 126
9.3 融合稀疏自編碼器的偏最小二乘優(yōu)化模型 129
9.3.1 自編碼器 129
9.3.2 稀疏自編碼器的構(gòu)造 131
9.3.3 優(yōu)化模型的建立 131
9.3.4 實驗設(shè)計與結(jié)果分析 134
9.4 融合深度置信網(wǎng)絡(luò)的偏最小二乘優(yōu)化模型 137
9.4.1 深度置信網(wǎng)絡(luò) 137
9.4.2 優(yōu)化模型的建立 139
9.4.3 實驗設(shè)計與結(jié)果分析 141
9.5 本章小結(jié) 144
第10章 偏最小二乘回歸的非線性優(yōu)化模型 146
10.1 問題的提出 146
10.2 融合模型樹的偏最小二乘優(yōu)化 146
10.2.1 模型樹 147
10.2.2 非線性模型的建立 149
10.2.3 實驗設(shè)計與結(jié)果分析 151
10.3 融合隨機森林的偏最小二乘優(yōu)化 154
10.3.1 隨機森林 154
10.3.2 非線性模型的建立 156
10.3.3 實驗設(shè)計與結(jié)果分析 159
10.4 融合softmax的偏最小二乘優(yōu)化 162
10.4.1 softmax 162
10.4.2 非線性模型的建立 163
10.4.3 實驗設(shè)計與結(jié)果分析 166
10.5 本章小結(jié) 170
第11章 總結(jié)與展望 173
11.1 偏最小二乘的優(yōu)勢 173
11.2 偏最小二乘的不足 174
11.3 偏最小二乘的展望 176
附錄A 專業(yè)術(shù)語 178
附錄B 優(yōu)化偏最小二乘的多功能數(shù)據(jù)分析系統(tǒng)使用指南 179
附錄C 中醫(yī)藥實驗數(shù)據(jù)表 202