我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据插补—拉格朗日插值法 - hjk

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据插补—拉格朗日插值法 - hjk

数据插补—拉格朗日插值法 - hjk

数据分析

数据清洗:缺失值处理、1删除记录 2数据插补 3不处理

数据在https://book.tipdm.org/jc/219 中的资源包中数据和代码chapter4demodatacatering_sale.xls

image
image

常见插补方法

image

插值法-拉格朗日插值法

根据数学知识可知,对于平面上已知的n个点(无两点在一条直线上可以找到n-1次多项式
image
,使次多项式曲线过这n个点。
1)求已知过n个点的n-1次多项式:
image

将n个点的坐标带入多项式:得到image
解出拉格朗日插值多项式:image
将缺失的函数值对应的点x带入多项式得到趋势值得近似值L(x)

#拉格朗日插值代码
import pandas as pd #导入数据分析库Pandas
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import lagrange #导入拉格朗日插值函数

inputfile = "../data/catering_sale.xls" #销量数据路径
outputfile = "../tmp/sales.xls" #输出数据路径

data = pd.read_excel(inputfile) #读入数据
temp = data[u"销量"][(data[u"销量"] < 400) | (data[u"销量"] > 5000)] #找到不符合要求得值 data[列][行]
for i in range(temp.shape[0]):
    data.loc[temp.index[i],u"销量"] = np.nan #把不符合要求得值变为空值

#自定义列向量插值函数
#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5
def ployinterp_column(s, n, k=5):
  y = s.iloc[list(range(n-k, n)) + list(range(n+1, n+1+k))] #取数 就是传入得data
  y = y[y.notnull()] #剔除空值
  f = lagrange(y.index, list(y))
  return f(n) #插值并返回插值结果

#逐个元素判断是否需要插值
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull())[j]: #如果为空即插值。
        data.loc[j,i] = ployinterp_column(data[i], j)

data.to_excel(outputfile) #输出结果,写入文件
print("success")

运行结果:

image
这个代码是可以运行的


问题

没有SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame
image
我也不知道时怎么把这个警告消除的,反正就是找啊找,在我不注意的时候能运行了!好像是不能一下多个赋值,要分开赋值。

最后

但是我们细看可以发现插入的值有问题:把插入的值输出可以看到有一个异常值
image

我们在处理数据时把小于400,大于5000的值都变成空值,然后通过拉格朗日插值法插入值,想要把数据没有那么大的差值,但是给我们插入一个负数,并且很离谱。我检查了一下并没有发现哪里有错误;然后我把用到的数据和拟合出来的拉格朗日函数输出得到:
f=-0.008874 x + 11.53 x - 6657 x + 2.242e+06 x - 4.854e+08 x + 7.005e+10 x - 6.74e+12 x + 4.168e+14 x - 1.504e+16 x + 2.411e+17
image
并没有发现问题,让后我就想着是不是拟合出来的函数步够精确,我把取点增加,但是都没有好的结果,反而更离谱,这种情况就是过拟合了,就是这个模型可以把你训练的模型拟合的很好,但是测试模型并不好。
举个例子:下面一组数据可以看到用x4函数拟合的并没有太多的点在模型上,x4函数拟合的相对较多一点,但是如果进行测试,14次方的模型可能会预测的很离谱:
image

最后我把取值点减小发现上下取点4个时都会有一个好的结果,上下去点为3,2,1(直线,不建议取)时也都还能接受。所以我么拟合出来的五个上下点时也并没有错,只是它拟合出来的函数就是在那个点上数值离谱。

原文地址:https://www.cnblogs.com/hjk-airl/archive/2022/03/30/15766870.html

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据插补—拉格朗日插值法 - hjk

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

数据插补—拉格朗日插值法 - hjk

数据分析数据清洗:缺失值处理、1删除记录 2数据插补 3不处理数据在https://book.tipdm.org/jc/219 中的资源包中数据和代码chapter4demodatacatering_sale.xls常见插补方法插值法-拉格朗日插值法根据数学知
数据插补—拉格朗日插值法 - hjk
2017-11-18

Python实现拉格朗日插值法的示例详解

插值法是一种数学方法,用于在已知数据点(离散数据)之间插入数据,以生成连续的函数曲线,而格朗日插值法是一种多项式插值法。本文就来用Python实现拉格朗日插值法,希望对大家有所帮助
2023-02-08

编程热搜

目录