在经济金融风险研究中,波动率预测在风险指标构建中起了十分关键的作用。在金融市场上,更丰富的信息意味着更精细的市场分析和更低的投资风险。相较于低频数据,高频金融数据能够挖掘出更多不同维度的有价值信息,对研究金融市场的微观结构具有重要意义。高频金融时间序列作为时间序列的一个重要而独特的分支,相比一般时间序列,具有非平稳性、非线性、高波动性和长记忆性的特征,其预测难度较大,学界及业界研究人员不断地寻求更好的、更精确的预测模型来对股价等高频金融数据进行预测,以期降低投资者的风险。
在金融时间序列分析中,主要的预测模型大致可分为计量模型、机器学习模型和深度学习模型。经典的计量模型包括针对时间序列线性结构的ARMA、ARIMA等模型,非线性结构的ARCH、GARCH等模型。但这些具有良好理论基础的计量模型在处理非线性的金融数据时,往往会受到其自身理论假设的限制,如白噪声假设、平稳性建模条件等。随着大数据和人工智能技术的发展,BP神经网络、支持向量机等机器学习模型的出现,使得非线性的数据能够得到较好的拟合与预测,但这些传统的机器学习模型仍无法处理高频金融数据的长记忆性,其预测精度也并不理想。随着机器学习的不断深入和探索,深度学习模型在处理非线性的数据上表现出了更加优越的性能,特别是,在捕捉时间序列的长记忆性方面,尤其LSTM模型所展现出的能力及预测精度优势,使得该模型从众多模型中脱颖而出。
目前开展情况:
与低频数据相比,高频金融数据具有非线性、非平稳、高波动性和长记忆性等特点,且通常伴随着跳跃现象,使得高频金融数据的预测难度不断加大。
为了提高波动率的预测精度,通常需要从预测模型和预测指标两个方面进行创新,在预测模型上,我们首先计算已实现的波动率,并确定市场情绪指数和交易信息指数,结合LSTM和基于5分钟高频金融交易数据的的具体交易信息,提出了新的预测模型,以预测未来波动率,并根据数据特征调整模型的超参数;在预测指标方面,我们对波动率预测指标体系进行了全面梳理,构建了一个新的波动率预测指标体系;同时,考虑到股价跳跃是股价波动的重要组成部分,我们将系统研究跳跃波动对中国股市波动的影响,针对波动率存在跳跃的现象,将跳跃率分解为连续波动和跳跃波动并作为新的解释变量加入到了我们的指标研究体系,具体是首先通过识别正向和负向跳跃波动来研究跳跃变差对波动率的非对称性影响,随后考察不同市场状态即市场不同振荡情况下,正负跳跃波动对于中国股市波动是否有异质性的影响。
另外,考虑到在金融市场中,许多投资者会聚集于网上进行自己股票看法的分享,金融市场的相关新闻也包含着对金融产品的波动影响,这些文字信息能够表达反映,影响当下投资者的情绪,其是否可以对金融市场的量化指标数据进行预测是个值得关注的问题。本项目以金融科技为立足点,假设投资者情绪与金融科技股票市场量化指标数据存在相关关系,运用自然语言处理领域中经典的BERT模型尝试对经济金融领域中非结构化的不确定性信息(如投资者情绪-Twitter微博博客中的投资者情绪和微博客的发布量对标普500指数、低市值的投资组合和某些行业的收益预测具有相关影响)进行分析,提取文本中的情绪指标,进一步完善评价指标体系,提高波动率的估计效果。
最后,评估构建的模型并进行比较。在MSE、RMSE、MAE、MSLE和RMSPE六个评估标准下,我们评估并比较了LSTM模型与机器学习模型的滚动预测效果,并基于预测结果对疫情期间中国股市上证指数和十大行业的Var值进行测算。