位置：首页-资讯-后端开发

【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化

2023-09-08 17:37

短信预约 -IT技能 免费直播动态提醒

目录

一、介绍
二、下载数据
三、获取数据
四、分析数据
五、移动平均预测
六、封装函数
最后

一、介绍

移动平均（Moving Average，MA），⼜称移动平均线，简称均线。作为技术分析中⼀种分析时间序列的常⽤⼯具，常被应⽤于股票价格序列。移动平均可过滤⾼频噪声，反映出中⻓期低频趋势，辅助投资者做出投资判断。

流⾏的移动平均包括简单移动平均、加权移动平均、指数移动平均，更⾼阶的移动平均算法则有分形⾃适应移动平均、赫尔移动平均等。
而本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数

二、下载数据

下载S&P、Dow、Nasdaq数据并将其保存至文件夹内，数据已经打包好了：CSDN下载：琼斯、纳斯达克、标准普尔指数-数据挖掘数据集包
下载后的csv数据如下所示：
在这里插入图片描述

三、获取数据

获取数据我们使用pandas的read_csv函数，如：data = pd.read_csv('S&P.csv',header=0)
pd.read_csv函数用法：pd.read_csv(filepath_or_buffer,header,parse_dates,index_co)l

参数名	用法
filepath_or_buffer	字符串，或者任何对象的read()方法。这个字符串可以是URL，有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"
header	将行号用作列名，且是数据的开头

获取数据之后，我们可以打印一下数据：print(data），可以看到已经成功读取到csv数据：
在这里插入图片描述

四、分析数据

在这里插入图片描述

如上图所示，数据格式为csv，其中Date表示开盘的日期，Open表示开盘价，High表示当日最高值，Low表示当日最低值，Close表示收盘价格，Adj Close表示调整后的收盘价格，Volume表示当日成交量。我们需要预测的则是Adj Close这一列。
我们可以使用pandas读取csv文件，并打印出Adj Close这一列：

import pandas as pddata = pd.read_csv('DOW.csv',header=0)data = data.applymap(str)print(data['Adj Close'])

结果如下，可以看到在道琼斯数据集中，我们需要预测的Adj Close有798行，type为object，我们要做的就是根据数据，使用移动平均算法，预测后面的指数。
在这里插入图片描述

五、移动平均预测

移动平均值，就是指定时间段，对时间序列数据进行移动计算平均值。移动平均值常常用在计算股票的移动平均线、存货成本等方面。移动平均的本质是⼀种低通滤波。它的⽬的是过滤掉时间序列中的⾼频扰动，保留有⽤的低频趋势。计算公式： $A_{t}=\frac{P_{1}+P_{2}+\ldots+P_{n}}{n}$
比如若依次得到测定值 $x_1、x_2、x_3、x_4、x_5、x_6、x_7...$ ,按顺序取一定个数所做的全部算术平均值就是移动平均值，如 $y_1=(x_1+x_2+x_3)/3、y_2=(x_2+x_3+x_4)/3....$ ，

而panda提供了rolling函数可以用来计算移动平均，使用简单，速度较快：
DataFrame.rolling(window, min_periods=None, freq=None, center=False, win_type=None, on=None, axis=0, closed=None)

参数	用法
window	表示时间窗的大小，注意有两种形式(int or offset)。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。
min_periods	最少需要有值的观测点的数量，对于int类型，默认与window相等。对于offset类型，默认为1。
freq	不用管，从0.18版本中已经被舍弃。
win_type	窗口类型，不用管，默认为None一般不特殊指定
on	对于DataFrame如果不使用index(索引)作为rolling的列，那么用on来指定使用哪列。
closed	定义区间的开闭，不用管，新版本中已经被舍弃
axis	方向(轴)，一般都是0。
center	是否使用window的中间值作为label，默认为false。只能在window是int时使用。

那么我们使用的简单移动平均直接使用：data['ma5'] = data['Adj Close'].rolling(5).mean()，其表示窗口大小为5的移动平均。计算后，使用matplotlib.pyplot进行画图，横轴为时间，竖轴为预测价格，将其在pyplot 图中打印:

import matplotlib.pyplot as pltfig = plt.figure(figsize=(16,9))ax1 = fig.add_subplot(111, ylabel='Price')data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)

效果如下：
在这里插入图片描述
我们以同样方法画出多个均线并且和原数据real对比：

data['real'] = data['Adj Close'].rolling(1).mean()data['ma5'] = data['Adj Close'].rolling(5).mean()data['ma10'] = data['Adj Close'].rolling(10).mean()data['ma20'] = data['Adj Close'].rolling(20).mean()data['ma30'] = data['Adj Close'].rolling(30).mean()data['ma50'] = data['Adj Close'].rolling(50).mean()data['ma100'] = data['Adj Close'].rolling(100).mean()data['ma200'] = data['Adj Close'].rolling(200).mean()data['ma250'] = data['Adj Close'].rolling(250).mean()data.tail()fig = plt.figure(figsize=(16,9))ax1 = fig.add_subplot(111, ylabel='Price')data.real.plot(ax=ax1, color='black', lw=2., legend=True)data.ma5.plot(ax=ax1, color='plum', lw=2., legend=True)data.ma10.plot(ax=ax1, color='grey', lw=2., legend=True)data.ma20.plot(ax=ax1, color='salmon', lw=2., legend=True)data.ma30.plot(ax=ax1, color='goldenrod', lw=2., legend=True)data.ma50.plot(ax=ax1, color='hotpink', lw=2., legend=True)data.ma100.plot(ax=ax1, color='khaki', lw=2., legend=True)data.ma200.plot(ax=ax1, color='bisque', lw=2., legend=True)data.ma250.plot(ax=ax1, color='skyblue', lw=2., legend=True)plt.grid()plt.show()

在这里插入图片描述

可以发现，移动平均存在一定的滞后性，移动平均以滞后性的代价换来了平滑性，滞后性说明由简单移动平均计算得到的低频趋势对近期的最新数据不够敏感。没有未来数据便是滞后的根本原因。当股价不是随着趋势的变化方向，发生突发的方向趋势，移动平均线行动往往过于迟缓，改变方向速度落后于大趋势。这是一个极大弱点
在股价原有趋势发生反转时，由于MA的追踪趋势的特性，MA的行动往往过于迟缓，掉头速度落后于大趋势。这是MA的一个极大的弱点。等MA发出反转信号时，股价调头的深度已经很大了。

附录DOW在不同MA值下的滑动平均值：
在这里插入图片描述
Nasdaq在不同MA值下的滑动平均值：

S&P在不同MA值下的滑动平均值：

六、封装函数

我们将其进行封装如下，代码整体如下：

import matplotlib.pyplot as pltimport pandas as pdimport osdef cal_ma(name,data, day):    data = pd.read_csv(data, header=0)    data = data.applymap(str)    # print(data['Date'])    # print(data['Adj Close'])    day = int(day)    data['ma'+str(day)] = data['Adj Close'].rolling(day).mean()    data.tail()    fig = plt.figure(figsize=(16, 9))    ax1 = fig.add_subplot(111, ylabel='Price')    data['ma'+str(day)].plot(ax=ax1, color='red', lw=2., legend=True)    plt.rcParams['font.sans-serif'] = ['FangSong']    plt.title("MA"+str(day)+" about "+name+" data", fontsize=10, loc='center', color='black')    plt.grid()    plt.show()if __name__ == "__main__":    dataname = input("请输入数据名：")    day = input("请输入MA的天数：")    cal_ma(dataname,dataname+'.csv', day)