怎么在R语言中使用caret包比较ROC曲线
这篇文章将为大家详细讲解有关怎么在R语言中使用caret包比较ROC曲线,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
操作
加载对应的包与将训练控制算法设置为10折交叉验证,重复次数为3:
library(ROCR)library(e1071)library("pROC")library(caret)library("pROC")control = trainControl(method = "repaetedcv", number = 10, repeats =3, classProbs = TRUE, summaryFunction = twoClassSummary)
使用glm在训练数据集上训练一个分类器
glm.model = train(churn ~ ., data= trainset, method = "glm", metric = "ROC", trControl = control)
使用svm在训练数据集上训练一个分类器
svm.model = train(churn ~ ., data= trainset, method = "svmRadial", metric = "ROC", trControl = control)
使用rpart函数查看rpart在训练数据集上的运行情况
rpart.model = train(churn ~ ., data = trainset, method = "svmRadial", metric = "ROC", trControl = control)
使用不同的已经训练好的数据分类预测:
glm.probs = predict(glm.model,testset[,!names(testset) %in% c("churn")],type = "prob")svm.probs = predict(svm.model,testset[,!names(testset) %in% c("churn")],type = "prob")rpart.probs = predict(rpart.model,testset[,!names(testset) %in% c("churn")],type = "prob")
生成每个模型的ROC曲线,将它们绘制在一个图中:
glm.ROC = roc(response = testset[,c("churn")], predictor = glm.probs$yes, levels = levels(testset[,c("churn")]))plot(glm.ROC,type = "S",col = "red")svm.ROC = roc(response = testset[,c("churn")], predictor = svm.probs$yes, levels = levels(testset[,c("churn")]))plot(svm.ROC,add = TRUE,col = "green")rpart.ROC = roc(response = testset[,c("churn")], predictor = rpart.probs$yes, levels = levels(testset[,c("churn")]))plot(rpart.ROC,add = TRUE,col = "blue")
三种分类器的ROC曲线
说明
将不同的分类模型的ROC曲线绘制在同一个图中进行比较,设置训练过程的控制参数为重复三次的10折交叉验证,模型性能的评估参数为twoClassSummary,然后在使用glm,svm,rpart,三种不同的方法建立分类模型。
从图中可以看出,svm对训练集的预测结果(未调优)是三种分类算法里最好的。
补充:R语言利用caret包比较模型性能差异
说明
我们可以通过重采样的方法得对每一个匹配模型的统计信息,包括ROC曲线,灵敏度与特异度,然后基于这些统计信息来比较不同模型的性能差异。
操作
利用上节的信息,准备好glm分类模型,svm分类模型,rpart分类模型,并存放在glm.model,svm.model,rpart.model。
cv.values = resamples(list(glm = glm.model,svm =svm.model,rpart = rpart.model))> summary(cv.values)Call:summary.resamples(object = cv.values)Models: glm, svm, rpart Number of resamples: 30 ROC Min. 1st Qu. Median Mean 3rd Qu. Max. NA'sglm 0.7597790 0.7927740 0.8040455 0.8106454 0.8347961 0.8760824 0svm 0.8191998 0.8786439 0.8945208 0.8947360 0.9196775 0.9562556 0rpart 0.6064540 0.7150320 0.7608241 0.7556544 0.8086731 0.8554750 0Sens Min. 1st Qu. Median Mean 3rd Qu. Max. NA'sglm 0.08823529 0.1764706 0.2058824 0.2124930 0.2516807 0.3235294 0svm 0.44117647 0.5294118 0.5882353 0.5956863 0.6470588 0.7941176 0rpart 0.20000000 0.4117647 0.4705882 0.4787955 0.5514706 0.7352941 0Spec Min. 1st Qu. Median Mean 3rd Qu. Max. NA'sglm 0.9393939 0.9645119 0.9721581 0.9702721 0.9796954 0.9898477 0svm 0.9494949 0.9695431 0.9771574 0.9755004 0.9847716 0.9898990 0rpart 0.9492386 0.9746193 0.9796954 0.9780359 0.9848485 1.0000000 0
使用dotplot函数绘制重采样在ROC曲线度量中的结果:
dotplot(cv.values,metric = "ROC")
使用箱线图绘制重采样结果:
bwplot(cv.values,layout=c(3,1))
关于怎么在R语言中使用caret包比较ROC曲线就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341