深度学习预测前置知识

解析解:

解可以用一个公式简单地表达出来，这类解叫作解析解（analytical solution）

梯度下降:

它通过不断地在损失函数递减的方向上更新参数来降低误差。

梯度下降最简单的用法是计算损失函数（数据集中所有样本的损失均值）关于模型参数的导数（在这里也可以称为梯度）

泛化（generalization）:

找到一组参数，这组参数能够在我们从未见过的数据上实现较低的损失

超参数:

这些可以调整但不在训练过程中更新的参数称为超参数（hyperparameter）

调参（hyperparameter tuning）是选择超参数的过程

random.shuffle():

在训练机器学习模型时，经常会对数据进行随机打乱的操作。这有助于模型学习更好地泛化，因为模型不会过于依赖于特定的样本顺序。通过随机打乱数据，模型在每个批次中都能够看到不同的样本，从而更好地学习数据的分布和模式。

归一化，标准化：

sigmoid函数：

f(x) = 1/(1+e^-x)

现阶段主流的股价预测模型

1.ARIMA模型

ARIMA模型（英语：AutoregressiveIntegratedMovingAverage model），差分整合移动平均自回归模型，又称整合移动平均自回归模型（移动也可称作滑动），时间序列预测分析方法之一。ARIMA（p，d，q）中，AR是”自回归”，p为自回归项数；MA为”滑动平均”，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。“差分”一词虽未出现在ARIMA的英文名称中，却是关键步骤。ARIMA 模型是在平稳的时间序列基础上建立起来的，因此时间序列的平稳性是建模的重要前提。检验时间序列模型平稳的方法一般采用 ADF 单位根检验模型去检验。当然如果时间序列不稳定，也可以通过一些操作去使得时间序列稳定（比如取对数，差分），然后进行 ARIMA 模型预测，得到稳定的时间序列的预测结果，然后对预测结果进行之前使序列稳定的操作的逆操作（取指数，差分的逆操作），就可以得到原始数据的预测结果。

2.基于随机过程的马尔科夫链模型

马尔科夫过程是研究事物状态以及其状态转移规律的理论，适合于时间序列以及空间序列，一个时间与状态都是离散的马尔科夫过程叫做马尔科夫链，也叫马氏链（Markov Chain），马氏链模型是一类描述随机动态系统的模型，其特点是①系统每个时刻所处的状态都是随机的，②从一个时刻到下一个时刻的状态按照一定的概率转移，③下一个时刻的状态只取决于当前时刻的状态和转移概率，与其他时刻状态无关。

3.基于SVM的模型

支持向量机（SVM）是Vapnik和Cortes于1995年首先提出的，建立在统计学习理论的VC维理论和结构风险最小原理基础上的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。支持向量机将非线性问题映射到高维空间，引入核函数，解决了非线性分类问题。支持向量回归（SVR）是支持向量机的推广，通过引入ε不敏感损失函数，将问题转化为通过对已知的样本数据学习找到一个拟合函数，对未知的数据进行预测，这个函数f(x)对实际的值最大偏差为ε，从而构建回归模型。在金融领域的应用中，Trafalis和Ince研究发现SVR的预测精度远高于MLP（多层感知机）和ARIMA（差分滑动平均自回归模型），并且与神经网络相比有更加出色的性能。

4.基于XGBoost集成树模型

XGBoost算法是陈天奇博士于2016年提出的基于回归树的提升算法，在市场价格估计、高能物理事件分类、网络文本分类、客户行为分析等诸多机器学习任务中均表现了出色的性能，并且算法因其高度可扩展性和并行化能力，在大规模数据回归和分类任务上也有着优异的表现。2017年，Ren年将XGBoost与卷积神经网络结合，用于图像分类；同年，Chen将加权的XGBoost模型应用于雷达信号分类并取得了很好的效果。

5.基于深度学习的模型

近年来，深度学习方法在人工智能领域取得了突破性的进展，深度神经网络在图像识别、人脸检测与识别、语音识别、目标捕捉、机器翻译等多个领域都有长足的进步。一方面由于积累的数据量的提高，达到了深度学习所需要的量级，另一方面，机器运算性能的提升，也使深度学习方法有了硬件的基础。深度学习方法可以通过组合浅层次的特征形成更加抽象的高层特征表示，以发现数据的深层次隐含关系，通过多层神经网络的堆叠和激活函数的选取，可以更好地拟合复杂的非线性函数。由于市场规律的复杂性、市场价格的波动性、影响因素的多样性，仅仅依赖传统的策略分析和模型不足以应对这些挑战，而深度学习方法的引入，能够提高对这些问题的解决能力，训练出泛化能力更强的模型，对股票投资来说是具有重要的参考意义。

由于股价数据具有很强的时间关联性，我们自然想到使用LSTM（Long Short-Term Memory）或者GRU（Gated Recurrent Unit）模型挖掘股价数据在时间上的相关性。同时，中国股票市场受政策面影响很大，经济新闻和上市公司财报等文本数据也会成为股价波动的重要原因。目前研究者们普遍在股价数据的时间序列特征和经济金融信息文本特征两个大方面，使用深度学习模型对其进行预测和分析，也有学者综合以上两种特征，构造既包括技术面参数也包括基本面分析的股价特征向量，输入到模型进行学习，均取得了不错的效果，并有多种模型已经使用到荐股软件或者金融领域中。本文作为综述，只简单的介绍模型以及其基本原理，并期待相关模型能在论文和实验中表现出优秀的性能。