本書以大數(shù)據時代為背景,將機器學習與資產定價相結合,在風險解釋、收益預測以及經濟機制等方面進行了探索研究。首先,針對中國A股市場存在的收益與風險不對稱問題,使用機器學習重新對系統(tǒng)性風險進行測度,緩解了異象;其次,將研究拓展到樣本外的可預測性上,對比了各類機器學習算法,創(chuàng)新性地構建了動態(tài)深度學習模型,提升了市場有效性;最后,從機器學習的可解釋性出發(fā),從微觀和宏觀兩個視角對機器學習背后的經濟機制進行了討論。
本書以大數(shù)據時代為背景,將機器學習與資產定價相結合,在風險解釋、收益預測以及經濟機制等方面進行了探索研究。通過分析已有數(shù)據資料、建立模型、數(shù)據分析,本書得出機器學習在資產定價領域有廣泛應用空間。
馬甜、中央民族大學經濟學院講師,本科和碩士就讀于北京航空航天大學可靠性與系統(tǒng)工程學院,博士畢業(yè)于中央財經大學金融學院。主要研究方向為機器學習與資產定價,相關研究成果發(fā)表于《經濟學(季刊)》《管理科學學報》、JournalofEmpiricalFinance等國內外權威金融雜志。主持國家自然科學基金青年項目。
第一章緒論1
第一節(jié)研究背景2
第二節(jié)研究內容和方法6
第三節(jié)研究意義及創(chuàng)新10
第四節(jié)本書結構18
第二章文獻綜述21
第一節(jié)資產定價的理論模型發(fā)展歷程23
第二節(jié)資產定價中的異象特征36
第三節(jié)機器學習與資產定價44
第四節(jié)文獻述評51
第三章數(shù)據構建及機器學習模型設定55
第一節(jié)中國股市收益和特征數(shù)據56
第二節(jié)機器學習模型設定68
第三節(jié)本章小節(jié)86
第四章機器學習與中國股市系統(tǒng)性風險測度—基于貝塔異象視角的研究87
第一節(jié)理論模型和數(shù)據統(tǒng)計89
第二節(jié)第二節(jié)基于機器學習的動態(tài)CAPM模型93
第三節(jié)基于Fama-French三因子模型的探討101
第四節(jié)穩(wěn)健性檢驗104
第五節(jié)本章小結105
第五章基于機器學習的中國股市收益預測研究107
第一節(jié)個股橫截面收益預測109
第二節(jié)投資組合分析115
第三節(jié)本章小節(jié)124
第六章機器學習模型的可解釋性與經濟機制分析127
第一節(jié)經濟重要度分析129
第二節(jié)因子重要度分析130
第三節(jié)深度學習因子的微觀經濟機制研究132
第四節(jié)深度學習因子的宏觀經濟機制分析137
第五節(jié)本章小節(jié)143
第七章結論與展望145
第一節(jié)主要結論146
第二節(jié)啟示150
第三節(jié)研究不足和未來研究展望152
參考文獻155
附錄169
附錄一:企業(yè)微觀層面特征變量構建方法170
附錄二:機器學習模型的超參數(shù)設定180
后記184
第一節(jié)研究背景
對收益與風險的解釋和預測是資產定價領域的核心議題。無論是橫截面上的個股收益比較還是市場或指數(shù)的時序收益預測,核心問題在于確定合適的資產定價模型。傳統(tǒng)的資本資產定價模型CAPM基于Markowitz的均值-方差組合理論設定,認為股票或組合的超額收益來源于其包含的系統(tǒng)風險。后續(xù)的套利定價模型APT和經典的Fama-French因子模型指出影響收益的因素不只市場因子,還應包括其他諸如企業(yè)基本面和宏觀環(huán)境等因子變量,即多因子模型。多因子模型的提出極大地豐富了資產定價領域的探索度,眾多傳統(tǒng)模型無法解釋的異象被發(fā)現(xiàn)并構造成為定價因子,形成了因子動物園(FactorZoo)。
目前,學術界對于資產定價研究缺乏高維視角的探索。到目前為止,我們已經發(fā)現(xiàn)了大量具備預測能力的企業(yè)特征,而很多研究文獻仍然只使用了少量的因子數(shù)。相當一部分橫截面股票收益預測的研究工作將重點放在少量的公司特征的挖掘和回歸上,如公司規(guī)模、盈利能力或公司賬面市值比等。鑒于大量因子變量與收益預測和構建基于因子的投資組合的潛在相關性,關注如此少的變量實際上意味著研究者采用了非常高程度的稀疏性模型。即在成百上千的潛在因子中,通過正則化將絕大多數(shù)特征的影響都降低為零。
但上述變量選擇過程具有相當?shù)闹饔^性,且我們無法獲知在引入息優(yōu)勢。與此同時,近年來可以充分捕捉預期股票收益的有效因子數(shù)量一直呈上升趨勢。從最早的FamaandFrench(1993)三因子模型,到Fama-French五因子模型,以及后續(xù)更多異象因子的發(fā)現(xiàn)(圖1-1),資產定價正在走入大數(shù)據時代。新的時代背景帶來新的研究挑戰(zhàn),如對于眾多特征異象有效性的聯(lián)合檢驗,異象之間的冗余關系,新異象對于定價模型的邊際貢獻度以及異象的重要度排序等,這些問題無法通過傳統(tǒng)計量模型進行解釋,而需要以高維視角結合機器學習進行探討研究。
不只是學術研究,現(xiàn)實世界中的投資者在進行資產配置決策時同樣面臨高維數(shù)據問題。理性的投資者基于資產價格進行投資,資產價格反映了投資者對未來資產收益的預期。近年來,隨著新媒體的快速發(fā)展,投資者面臨著如何從大量潛在預測變量中獲取有效信息進行預測的困擾,F(xiàn)有的研究框架將投資者認知簡單地設定為只包含少量參數(shù)的低維模型,并不能充分地反映當下的高維數(shù)據環(huán)境。
面對金融大數(shù)據帶來的挑戰(zhàn),機器學習算法的改進和應用已成為近年來學術研究的熱點。機器學習將訓練數(shù)據輸入計算機進行學習,并利用訓練后的模型進行預測研究。例如,在圖像識別中,通過將食物圖像分為包含水果和不包含水果兩類,算法在訓練集中學習各圖像像素與食物分類之間的關系。在完成訓練后該算法就可以用來預測尚未進行分類的圖像中是否包含水果。機器學習模型在訓練過程中可以有效處理高維數(shù)據,避免傳統(tǒng)回歸模型如最小二乘回歸(OLS)等統(tǒng)計工具的過擬合問題。雖然機器學習在諸多工程領域中表現(xiàn)優(yōu)異,但其在金融市場的應用并不能通過簡單的移植來完成。其主要原因在于金融數(shù)據自身特有的性質。首先是信噪比問題,由于存在巨大的市場噪聲,金融數(shù)據的信噪比往往較低,此外有效市場假說理論表明一個完全有效的市場是無法利用過往信息獲取超額收益的,雖然現(xiàn)實中并不存在這樣一個完美市場,但市場交易者套利行為的存在的確會消化大部分有效信息,降低歷史數(shù)據的有效性。由此帶來的另一個問題是市場結構的周期變化,新信息的不斷構建和消化帶來了定價模型的動態(tài)變化,正如一張隨時變化的“臉”使得面部識別不再有效一樣,這種波動使得模型預測變得復雜和困難。
金融數(shù)據的第二個特點在于其較短的樣本量,F(xiàn)代化股票市場成立不過百年,相比其他人工智能項目,更多新金融數(shù)據的獲取只能依靠時間的推移產生。而相比結構化面板數(shù)據,非結構化的新興媒體數(shù)據誕生的時間更晚,受限的數(shù)據量約束了模型的估計和驗證過程。
機器學習的可解釋性研究同樣十分必要。一些機器學習模型為典型的“黑箱”結構,雖然擁有優(yōu)異的預測和分類能力,但理論解釋卻十分匱乏。而對于金融市場的參與者來說,了解模型的傳遞機理是非常重要的。其意義在于:第一,可以了解模型定價機理;第二,在模型發(fā)生失效時可以及時做出調整。傳統(tǒng)資產定價模型如Fama-French三因子模型認為超額回報可由市場資產組合、市值因子和賬面市值比因子來解釋,