12.1 order book 分析 · 基于高頻 limit order book 數據的短程價格方向預測—— via multi-class SVM · Python 量化交易教程

# 12.1 order book 分析 · 基于高頻 limit order book 數據的短程價格方向預測—— via multi-class SVM > 來源：https://uqer.io/community/share/5660665bf9f06c6c8a91b1a0 ## 摘要：下面的內容是基于文獻[Modeling high-frequency limit order book dynamics with support vector machines](https://raw.github.com/ezhulenev/scala-openbook/master/assets/Modeling-high-frequency-limit-order-book-dynamics-with-support-vector-machines.pdf)的框架寫的，由于高頻數據粗粒度依然有限，只能實現了部分內容。若需要完整理解這個問題以及實現方法，請閱讀上述的文獻。下面我會簡單介紹一下整個框架的內容。 ## 模型構造作者使用Message book以及Order book作為數據來源，通聯沒有前者的數據，因此后面的部分只涉及到level1買賣5檔的order book數據作為模型的輸入。這里我只實現了通過order book數據預測mid price的方向，包括向上，向下，以及不變。對于bid-ask spread crossing的方法相似，我暫時就不放上來了。 ## 特征選擇對order book數據做處理后，可以提取到我們需要的特征向量。總的特征分為三類：基本、時間不敏感和時間敏感三類，這里我們能從數據中獲得全部的基本和時間不敏感特征，以及部分時間敏感特征，具體的見圖片，或者進一步閱讀文獻。 ![](https://box.kancloud.cn/2016-07-31_579d7a02bf38b.png) ```py #importing package import numpy as np import pandas as pd from matplotlib import pyplot as plt from sklearn import svm from CAL.PyCAL import * #global parameter for model date = '20151130' securityID = '000002.XSHE' #萬科A trainSetNum = 900 testSetNum = 600 #loading LOB data dataSet = DataAPI.MktTicksHistOneDayGet(securityID=securityID, date=date,pandas='1') #Features representation ##Basic Set ###V1: price and volume (10 levels) featV1 = dataSet[['askPrice1','askPrice2','askPrice3','askPrice4','askPrice5','askVolume1','askVolume2','askVolume3','askVolume4','askVolume5','bidPrice1','bidPrice2','bidPrice3','bidPrice4','bidPrice5','bidVolume1','bidVolume2','bidVolume3','bidVolume4','bidVolume5']] featV1 = np.array(featV1) ##Time-insensitive Set ###V2: bid-ask spread and mid-prices temp1 = featV1[:,0:5] - featV1[:,10:15] temp2 = (featV1[:,0:5] + featV1[:,10:15])*0.5 featV2 = np.zeros([temp1.shape[0],temp1.shape[1]+temp2.shape[1]]) featV2[:,0:temp1.shape[1]] = temp1 featV2[:,temp1.shape[1]:] = temp2 ###V3: price differences temp1 = featV1[:,4] - featV1[:,0] temp2 = featV1[:,10] - featV1[:,14] temp3 = abs(featV1[:,1:5] - featV1[:,0:4]) temp4 = abs(featV1[:,11:15] - featV1[:,10:14]) featV3 = np.zeros([temp1.shape[0],1+1+temp3.shape[1]+temp4.shape[1]]) featV3[:,0] = temp1 featV3[:,1] = temp2 featV3[:,2:2+temp3.shape[1]] = temp3 featV3[:,2+temp3.shape[1]:] = temp4 ###V4: mean prices and volumns temp1 = np.mean(featV1[:,0:5],1) temp2 = np.mean(featV1[:,10:15],1) temp3 = np.mean(featV1[:,5:10],1) temp4 = np.mean(featV1[:,15:],1) featV4 = np.zeros([temp1.shape[0],1+1+1+1]) featV4[:,0] = temp1 featV4[:,1] = temp2 featV4[:,2] = temp3 featV4[:,3] = temp4 ###V5: accumulated differences temp1 = np.sum(featV2[:,0:5],1) temp2 = np.sum(featV1[:,5:10] - featV1[:,15:],1) featV5 = np.zeros([temp1.shape[0],1+1]) featV5[:,0] = temp1 featV5[:,1] = temp2 ##Time-insensitive Set ###V6: price and volume derivatives temp1 = featV1[1:,0:5] - featV1[:-1,0:5] temp2 = featV1[1:,10:15] - featV1[:-1,10:15] temp3 = featV1[1:,5:10] - featV1[:-1,5:10] temp4 = featV1[1:,15:] - featV1[:-1,15:] featV6 = np.zeros([temp1.shape[0]+1,temp1.shape[1]+temp2.shape[1]+temp3.shape[1]+temp4.shape[1]]) #由于差分，少掉一個數據，此處補回 featV6[1:,0:temp1.shape[1]] = temp1 featV6[1:,temp1.shape[1]:temp1.shape[1]+temp2.shape[1]] = temp2 featV6[1:,temp1.shape[1]+temp2.shape[1]:temp1.shape[1]+temp2.shape[1]+temp3.shape[1]] = temp3 featV6[1:,temp1.shape[1]+temp2.shape[1]+temp3.shape[1]:] = temp4 ##combining the features feat = np.zeros([featV1.shape[0],sum([featV1.shape[1],featV2.shape[1],featV3.shape[1],featV4.shape[1],featV5.shape[1],featV6.shape[1]])]) feat[:,:featV1.shape[1]] = featV1 feat[:,featV1.shape[1]:featV1.shape[1]+featV2.shape[1]] = featV2 feat[:,featV1.shape[1]+featV2.shape[1]:featV1.shape[1]+featV2.shape[1]+featV3.shape[1]] = featV3 feat[:,featV1.shape[1]+featV2.shape[1]+featV3.shape[1]:featV1.shape[1]+featV2.shape[1]+featV3.shape[1]+featV4.shape[1]] = featV4 feat[:,featV1.shape[1]+featV2.shape[1]+featV3.shape[1]+featV4.shape[1]:featV1.shape[1]+featV2.shape[1]+featV3.shape[1]+featV4.shape[1]+featV5.shape[1]] = featV5 feat[:,featV1.shape[1]+featV2.shape[1]+featV3.shape[1]+featV4.shape[1]+featV5.shape[1]:] = featV6 ##normalizing the feature numFeat = feat.shape[1] meanFeat = feat.mean(axis=1) meanFeat.shape = [meanFeat.shape[0],1] stdFeat = feat.std(axis=1) stdFeat.shape = [stdFeat.shape[0],1] normFeat = (feat - meanFeat.repeat(numFeat,axis=1))/stdFeat.repeat(numFeat,axis=1) #print(normFeat) api.wmcloud.com 443 ``` ## 數據標注選擇時間間隔為通聯能獲取的最小時間間隔（3s）， + 若下一個單位時刻mid price大于此時的mid price，則標注為向上， + 若下一個單位時刻mid price小于此時的mid price，則標注為向下， + 若下一個單位時刻mid price等于此時的mid price，則標注為不變， ```py ##mid-price trend of dataset:upward(0),downward(1) or stationary(2) upY = featV2[1:,5] > featV2[:-1,5] upY = np.append(upY,0) numUp = sum(upY) downY = featV2[1:,5] < featV2[:-1,5] downY = np.append(downY,0) numDown = sum(downY) statY = featV2[1:,5] == featV2[:-1,5] statY = np.append(statY,0) numStat = sum(statY) #Y = np.zeros([upY.shape[0],3]) #Y[:,0] = upY #Y[:,1] = downY #Y[:,2] = statY pUp = np.where(upY==1)[0] pDown = np.where(downY==1)[0] pStat = np.where(statY==1)[0] multiY = np.zeros([upY.shape[0],1]) multiY[pUp] = 0 multiY[pDown] = 1 multiY[pStat] = 2 ##divide the dataset into trainSet, and testSst numTrain = 1200 numTest = 500 #rebalance the radio of upward, downward and stationary data numTrainUp = 250 numTrainDown = 250 numTrainStat = 400 pUpTrain = pUp[:numTrainUp] pDownTrain = pDown[:numTrainDown] pStatTrain = pStat[:numTrainStat] pTrainTemp = np.append(pUpTrain,pDownTrain) pTrain = np.append(pTrainTemp,pStatTrain) trainSet = normFeat[pTrain,:] #trainSet = normFeat[1:numTrain+1,:] testSet = normFeat[numTrain+1:numTrain+numTest+1,:] #trainY = Y[1:numTrain+1,:] trainMultiYTemp = np.append(multiY[pUpTrain],multiY[pDownTrain]) trainMultiY = np.append(trainMultiYTemp,multiY[pStatTrain]) #trainMultiY = multiY[1:numTrain+1] testMultiY = multiY[numTrain+1:numTrain+numTest+1] ``` ## 分類模型基于one vs all的multi-class SVM，這里我沒有對參數做過多調整，因此看到的模型事實上非常簡陋。有興趣的話也可以用forest tree等ML方法嘗試。 ```py ##training a multi-class svm model Model = svm.LinearSVC(C=2.) Model.fit(trainSet,trainMultiY) pred = Model.predict(testSet) ap = Model.score(testSet,testMultiY) print(ap) 0.522 ``` ## 結果我這里拿了11月30日的萬科A作為數據來源來預測。之所以拿萬科A，是因為我從11月上旬就開始看好這只股票，結果在中旬的時候沒有拿住，低位沒有補進，誰知道月底就起飛了，讓我又愛又恨。我在最后畫出了預測結果，藍線是測試集中的mid price時間序列，紅點表示模型預測下一時刻方向向上，綠點表示模型預測下一時刻方向向下，沒有畫點表示預測方向不變。 ```py testMidPrice = featV2[numTrain+1:numTrain+numTest+1,5] pUpTest = np.where(pred==0)[0] pDownTest = np.where(pred==1)[0] pStatTest = np.where(pred==2)[0] plt.figure(figsize=(16,5)) plt.plot(range(numTest),testMidPrice,'b-',pUpTest,testMidPrice[pUpTest],'r.',pDownTest,testMidPrice[pDownTest],'g.') plt.grid() plt.xlabel('time') plt.ylabel('midPrice') <matplotlib.text.Text at 0x6f8d2d0> ``` ![](https://box.kancloud.cn/2016-07-30_579cbdb57b545.png) ## 題外話現在你看到的是一個極為粗糙的東西，原論文的框架遠遠比這個復雜，包括對訓練集的交叉驗證，以及數據的更新替代，bid-ask spread crossing，以及基于此的toy策略（當然這么高頻的操作在平臺上暫時也實現不了:)）等等等等都沒有實現。這里我只是選取了前1200個數據作了normalization和rebalance后來預測后500個數據。我現在研二忙成狗，也只能晚上寫一寫，還得趕著發完論文以后趕緊找實習，所以以后有機會也許再放一個更精細的版本上來。最后感謝通聯的朋友特地給我開了歷史高頻的接口~