Python中寻找数据异常值的3种方法

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

1. 引言

在数据处理、机器学习等领域，我们经常需要对各式各样的数据进行处理，本文重点介绍三种非常简单的方法来检测数据集中的异常值。

2. 举个栗子

为了方便介绍，这里给出我们的测试数据集，如下：

data = pd.DataFrame([
[87, 82, 85],
[81, 89, 75],
[86, 87, 69],
[91, 79, 86],
[88, 89, 82],
[0, 0, 0], # this guy missed the exam
[100, 100, 100],
], columns=["math", "science", "english"])

图示如下：

假设这里我们有一堆学生的三门科目的考试成绩——英语、数学和科学。这些学生通常表现很好，但其中一人错过了所有考试，三门科目都得了0分。在我们的分析中包括这个家伙可能会把事情搞砸，所以我们需要将他视为异常。

3. 孤立森林

使用孤立森林算法来求解上述异常值分析非常简单，代码如下：

from sklearn.ensemble import IsolationForest
predictions = IsolationForest().fit(data).predict(data)
# predictions = array([ 1, 1, 1, 1, 1, -1, -1])

这里预测值针对每一行进行预测，预测结果为1或者-1；其中1表示该行不是异常值，而-1表示该行是异常值。在上述例子中，我们的孤立森林算法将数据中的最后2行都预测为异常值。

4. 椭圆模型拟合

使用孤椭圆模型拟合算法来求解上述异常值同样非常方便，代码如下：

from sklearn.covariance import EllipticEnvelope
predictions = EllipticEnvelope().fit(data).predict(data)
# predictions = array([ 1, 1, 1, 1, 1, -1, 1])

在上述代码中，我们使用了另外一种异常值检测算法来代替孤立森林算法，但是代码保持不变。相似地，在预测值中，1表示非异常值，-1表示异常值。在上述情况下，我们的椭圆模型拟合算法只将倒数第二个学生作为异常值，即所有成绩都为零的考生。

5. 局部异常因子算法

类似地，我们可以非常方便地使用局部异常因子算法来对上述数据进行分析，样例代码如下：

from sklearn.neighbors import LocalOutlierFactor
predictions = LocalOutlierFactor(n_neighbors=5, novelty=True).fit(data).predict(data)
# array([ 1, 1, 1, 1, 1, -1, 1])

局部异常因子算法是sklearn上可用的另一种异常检测算法，我们可以简单地在这里随插随用。同样地，这里该算法仅将最后第二个数据行预测为异常值。

6. 挑选异常值检测方法

那么，我们如何决定哪种异常检测算法更好呢？简而言之，没有“最佳”的异常值检测算法——我们可以将它们视为做相同事情的不同方式（并获得略有不同的结果）

7. 异常值消除

在我们从上述三种异常检测算法中的任何一种获得异常预测后，我们现在可以执行异常值的删除。这里我们只需保留异常预测为1的所有数据行，

代码如下：

# predictions = array([ 1, 1, 1, 1, 1, -1, 1])
data2 = data[predictions==1]

结果如下：

8. 总结

本文重点介绍了在Python中使用sklearn机器学习库来进行异常值检测的三种方法，并给出了相应的代码示例。

到此这篇关于Python中寻找数据异常值的3种方法的文章就介绍到这了,更多相关Python寻找数据异常值内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python中寻找数据异常值的3种方法

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python中寻找数据异常值的3种方法

目录

1. 引言

2. 举个栗子

3. 孤立森林

4. 椭圆模型拟合

5. 局部异常因子算法

6. 挑选异常值检测方法

7. 异常值消除

8. 总结

Python中寻找数据异常值的3种方法

相关文章

猜你喜欢

Python中寻找数据异常值的3种方法

python 遍历数组的3种方法及常用的代码

python数据分析中的异常值处理是怎样的

mysql多条数据合并成一条的3种常见方法

python pandas 数据排序的几种常用方法

Java检查值是否存在于数组中的3种方法

python一组数据去除掉异常数据的方法是什么

您是否正在寻找一种更高效的方法来处理数据？Python NumPy函数可能是您的救星！

js如何查找json数据中的最大值和最小值方法

Python Pandas读取Excel日期数据的异常处理方法

Python数据分析的八种处理缺失值方法详解

数据库中3*2*2*3种随机的特殊恢复方法是什么

Python中的常见数据集打乱方法

python多线程中获取函数返回值的三种方法

浅析PHP移除数组中最后一个元素的3种常用方法

python向json中追加数据的两种方法总结

python 中将数据生成为Excel文件的多种方法

Oracle中几种常见的数据库错误类型及处理方法

查看Python中常用的数据类型有哪些方法

如何批量上传CSV文件数据到MySql表中？使用 LOAD DATA 的一种非常快速的方法

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复

数据库中322*3种随机的特殊恢复方法是什么