四种Python机器学习超参数搜索方法总结

2022-11-13 19:24

短信预约 -IT技能 免费直播动态提醒

原始模型

作为精度对比，我们最开始使用随机森林来训练初始化模型，并在测试集计算精度：

# 数据读取
df = pd.read_csv('https://mirror.coggle.club/dataset/heart.csv')
X = df.drop(columns=['output'])
y = df['output']

# 数据划分
x_train, x_test, y_train, y_test = train_test_split(X, y, stratify=y)

# 模型训练与计算准确率
clf = RandomForestClassifier(random_state=0)
clf.fit(x_train, y_train)
clf.score(x_test, y_test)

模型最终在测试集精度为：0.802。

GridSearch

GridSearch是比较基础的超参数搜索方法，中文名字网格搜索。其原理是在计算的过程中遍历所有的超参数组合，然后搜索到最优的结果。

如下代码所示，我们对4个超参数进行搜索，搜索空间为 5 * 3 * 2 * 3 = 90组超参数。对于每组超参数还需要计算5折交叉验证，则需要训练450次。

parameters = {
    'max_depth': [2,4,5,6,7],
    'min_samples_leaf': [1,2,3],
    'min_weight_fraction_leaf': [0, 0.1],
    'min_impurity_decrease': [0, 0.1, 0.2]
}

# Fitting 5 folds for each of 90 candidates, totalling 450 fits
clf = GridSearchCV(
    RandomForestClassifier(random_state=0),
    parameters, refit=True, verbose=1,
)
clf.fit(x_train, y_train)
clf.best_estimator_.score(x_test, y_test)

模型最终在测试集精度为：0.815。

RandomizedSearch

RandomizedSearch是在一定范围内进行搜索，且需要设置搜索的次数，其默认不会对所有的组合进行搜索。

n_iter代表超参数组合的个数，默认会设置比所有组合次数少的取值，如下面设置的为10，则只进行50次训练。

parameters = {
    'max_depth': [2,4,5,6,7],
    'min_samples_leaf': [1,2,3],
    'min_weight_fraction_leaf': [0, 0.1],
    'min_impurity_decrease': [0, 0.1, 0.2]
}

clf = RandomizedSearchCV(
    RandomForestClassifier(random_state=0),
    parameters, refit=True, verbose=1, n_iter=10,
)

clf.fit(x_train, y_train)
clf.best_estimator_.score(x_test, y_test)

模型最终在测试集精度为：0.815。

HalvingGridSearch

HalvingGridSearch和GridSearch非常相似，但在迭代的过程中是有参数组合减半的操作。

最开始使用所有的超参数组合，但使用最少的数据，筛选其中最优的超参数，增加数据再进行筛选。

HalvingGridSearch的思路和hyperband的思路非常相似，但是最朴素的实现。先使用少量数据筛选超参数组合，然后使用更多的数据验证精度。

n_iterations: 3
n_required_iterations: 5
n_possible_iterations: 3
min_resources_: 20
max_resources_: 227
aggressive_elimination: False
factor: 3
----------

iter: 0
n_candidates: 90
n_resources: 20
Fitting 5 folds for each of 90 candidates, totalling 450 fits
----------

iter: 1
n_candidates: 30
n_resources: 60
Fitting 5 folds for each of 30 candidates, totalling 150 fits
----------

iter: 2
n_candidates: 10
n_resources: 180
Fitting 5 folds for each of 10 candidates, totalling 50 fits
----------

模型最终在测试集精度为：0.855。

HalvingRandomSearch

HalvingRandomSearch和HalvingGridSearch类似，都是逐步增加样本，减少超参数组合。但每次生成超参数组合，都是随机筛选的。

n_iterations: 3
n_required_iterations: 3
n_possible_iterations: 3
min_resources_: 20
max_resources_: 227
aggressive_elimination: False
factor: 3
----------

iter: 0
n_candidates: 11
n_resources: 20
Fitting 5 folds for each of 11 candidates, totalling 55 fits
----------

iter: 1
n_candidates: 4
n_resources: 60
Fitting 5 folds for each of 4 candidates, totalling 20 fits
----------

iter: 2
n_candidates: 2
n_resources: 180
Fitting 5 folds for each of 2 candidates, totalling 10 fits

模型最终在测试集精度为：0.828。

总结与对比

HalvingGridSearch和HalvingRandomSearch比较适合在数据量比较大的情况使用，可以提高训练速度。如果计算资源充足，GridSearch和HalvingGridSearch会得到更好的结果。

后续我们将分享其他的一些高阶调参库的实现，其中也会有数据量改变的思路。如在Optuna中，核心是参数组合的生成和剪枝、训练的样本增加等细节。

到此这篇关于四种Python机器学习超参数搜索方法总结的文章就介绍到这了,更多相关Python超参数搜索内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python超参数搜索方法 Python超参数搜索

阅读原文内容投诉

四种Python机器学习超参数搜索方法总结

下载Word文档到电脑，方便收藏和打印～

下载Word文档

四种Python机器学习超参数搜索方法总结

目录

原始模型

GridSearch

RandomizedSearch

HalvingGridSearch

HalvingRandomSearch

总结与对比

四种Python机器学习超参数搜索方法总结

相关文章

猜你喜欢

四种Python机器学习超参数搜索方法总结

16中Python机器学习类别特征处理方法总结

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

四种Python机器学习超参数搜索方法总结

目录

原始模型

GridSearch

RandomizedSearch

HalvingGridSearch

HalvingRandomSearch

总结与对比

四种Python机器学习超参数搜索方法总结

相关文章

猜你喜欢

四种Python机器学习超参数搜索方法总结

16中Python机器学习类别特征处理方法总结

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复