聯系我們::(掃碼) | :(掃碼) |
返回列表 發帖

量化模型的選擇準則介紹

量化模型的選擇準則介紹

量化模型的參數是可以通過對數據樣本的校正或訓練得到的,但是決定量化模型結構的超參數卻無法從數據訓練中的得到,而只能通過選擇得到。不同的量化模型可能包含不同的超參數,例如多維時間序列模型的超參數包含了各個維度所代表的輸入特征、時間序列的延時等;神經網絡的超參數則包含了,每層神經元的連接方式,神經元層數等。有的研究結果甚至顯示模型的超參數甚至比模型的參數訓練更為重要。

因此從不同的模型超參數組合中選擇出一個預測能力較強的模型既是重點也是難點。量化模型的評價和選擇準則有多種,最簡單的就是看模型對數據的擬合效果。這個可以考察模型對樣本的均方根誤差等指標。但是模型對數據的擬合效果往往不能代表量化模型的預測能力。即使所有模型與數據的擬合都存在一定的偏差,研究人員仍然希望能從中找出具有一定預測能力的模型,因為模型應用到交易當中最主要的是看模型的預測效果,模型開發人員更希望根據模型的預測效果來改進模型。一個比較直接的方法就是使用交叉驗證,但是這種方法需要大量的模型擬合計算,對計算量要求較高,所以研究人員普遍希望能找到計算量較小的替代品。所以從實際操作的角度來講,一些簡單通過平衡擬合效果和參數數量的模型選擇準則,仍然有一定的存在價值。但是目前學術界對使用哪種信息量準則來衡量模型并沒有達成共識。

下面介紹三個常用的信息量準則原理,包括赤池信息準則,貝葉斯信息準則和交叉驗證CV(Cross Validation)。

(1) 赤池信息準則(Akaike information criterion, AIC)

AIC信息量準則由學者Akaike赤池提出,所以中文又稱赤池信息量準則。假設一個模型包含了個需要估計的參數。是該量化模型的最大似然函數,則AIC可以表示為


1572609233496.jpg

從上式可以看到當模型參數數量越少,AIC越小。最大似然函數越大,即模型的擬合效果越好,AIC越小。因此AIC同時考慮到了參數數量和模型的擬合效果,AIC對模型過度擬合的懲罰主要來源于對參數數量的控制。因為通常來說增加參數數量的同時會增加模型的擬合效果,即最大似然函數增加。比較不同超參數模型組合的AIC值,最優的模型就是AIC值最小者。

(2) 貝葉斯信息準則(Bayesian information criterion, BIC)

BIC在AIC的基礎上把模型訓練樣本數量也考慮在內,BIC可以表示如下


1572609233461.jpg

比較公式(1)和(2)可以發現,BIC的差別主要在于對參數數量的懲罰。當時,=2.079,所以當,。通常樣本數量都會大于8,因此與AIC相比,BIC更加偏向于參數數量少的模型。通常線性模型的AIC和BIC都可以直接調用軟件包的函數進行計算,因此這兩個準則在實際使用上比較方便。

(3) 交叉驗證(Cross Validation, CV)

無論AIC還是BIC,計算時都只需要擬合模型一次,求出樣本內數據的擬合效果,即似然函數即可,然后根據參數使用數量和擬合效果去推斷樣本外數據的預測效果。因此AIC和BIC都無法直接衡量樣本外數據的預測效果。而CV,即交叉驗證則不同,CV直接使用樣本外數據來衡量模型的預測效果。假設樣本的數量為,則預留個樣本用于衡量模型的預測效果,只用個樣本來訓練模型。這種方法面臨的問題是如何選擇這個樣本,選多少比較合適。因為根據值不同,從個樣本中選個樣本總共有種選法。如果模型訓練的計算量不大,可以使用LOOCV(Leave One Out Cross Validation),即留一交叉驗證。這種方法從第1,第2,…至第個樣本中,依次留出一個樣本,然后用剩余的個樣本進行模型訓練,這樣需要訓練次模型,才能收集到個樣本外預測誤差,然后根據這個樣本外預測誤差的統計量,例如均方根值等來進行模型評價。如果有組模型超參數組合,那就要訓練次模型。與AIC和BIC相比LOOCV的計算量是他們的倍。顯然當樣本數量較大且單個模型訓練時間較長的時候,這種方法實際上并不可行,所以這種情況下可以使用k-fold CV,這種方法就是把樣本隨機分成份,用份數據訓練模型,剩余的一份作為樣本外數據統計誤差,這樣可以累積統計份樣本外預測誤差,這種方法只需要訓練模型次即可,通常使用的是=5或=10。當時,k-fold CV就成了LOOCV。

以上就常見的是量化模型的選擇準則,AIC和BIC常見于似然函數較為方便計算的線性模型,而CV則常見于神經網絡等非線性模型。(作者:陳維嘉)

如何訪問權限為100,255貼子:/thread-37840-1-1.html;注冊時會員名非法、需邀請碼,注冊后仍不能回復,找不到回復按鈕:/thread-23-1-1.html;開立低傭金期貨賬戶:/thread-25049-1-1.html;量化公開課:/forum-878-1.html

學習了,感謝!

TOP

返回列表
百人牛牛图标