我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Sklearn调优之网格搜索与随机搜索原理详细分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Sklearn调优之网格搜索与随机搜索原理详细分析

前言

超参调优是“模型调优”(Model Tuning)阶段最主要的工作,是直接影响模型最终效果的关键步骤,然而,超参调优本身却是一项非常低级且枯燥的工作,因为它的策略就是:不断变换参数值,一轮一轮地去“试”,直到找出结果最好的一组参数。显然,这个过程是可以通过编程封装成自动化的工作,而不是靠蛮力手动去一遍一遍的测试。为此,Sklearn提供了多种(自动化)超参调优方法(官方文档),其中网格搜索(Grid Search)和随机搜索(Randomized Search)是最基础也是最常用的两个:

方法名称对应类/函数官方文档
网格搜索(Grid Search)sklearn.model_selection.GridSearchCV文档链接
随机搜索(Randomized Search)sklearn.model_selection.RandomizedSearchCV文档链接

对应类/函数的后缀CV是Cross-Validation的意思,因为它们每尝试一种超参组合时,都会使用Cross-Validation进行效果评估,所以调用它们时也都需要显式指定cv参数,即:验证的轮次(K-Fold的份数)。

网格搜索(Grid Search)

网格搜索(Grid Search)的逻辑其实非常简单,就是由开发者针对每个超参设定多个值去尝试,找出效果最好的那个,由于超参会有很多个,而每一个超参又有多个尝试值,所以就变成了一个“排列组合”问题。例如我们想针对两个超参进行调优,第一个超参设置了2个尝试值,第二个超参设置了3个尝试值,则超参设置总共会有 2 × 3 = 6 种组合,理论上模型要被训练6次,如果再加上交叉验证的轮次参数cv,假设cv=3,则总得的训练次数将变为:6 × 3 = 18 次。以下是《Hands-On ML, 2nd Edition》一书中提供的GridSearchCV示例代码:

from sklearn.model_selection import GridSearchCV
param_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
]
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error',
                           return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

在这份示例代码中,作者提供针对bootstrap、n_estimators和max_features三个超参,给出了两套参数设定:

第一套:{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]} 总计:3 × 4 = 12 种组合

第二套:{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]} 总计:1 × 2 × 3 = 6 种组合

合在一起一共:12 + 6 = 18 种组合,加上交叉验证设定cv=5,所以最终将训练 18 × 5 = 90 次!这里我们可以看到param_grid是一个list,里面每一个元素是一个dict,一个dict就代表了一套参数设定,每套参数设定根据赋值情况又会产生多种参数组合。其实上面两套组合也可以用下面的一套设定覆盖:

param_grid = [
    {'bootstrap': [True, False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 6, 8]}
]

但在此情况下,总的训练次数将会变为:(2 × 3 × 5) × 5 = 150 次。由此可见,Sklearn这种允许设定多套参数的设计(即一个list下可配置多个dict)还是有可取之处,会方便开发人员更具经验设定最有希望的取值集合,减少训练次数。

随机搜索(Randomized Search)

网格搜索适用于参数组合数比较少的情况,当参数组合大到一定程度后,模型训练所占用的资源和持续时间将会超用户的可接受范围,此时往往就要改用随机搜索(Randomized Search)了。随机搜索的工作原理和网格搜索其实差不多,都是“暴力尝试”,不同之处在于:网格搜索的参数取值集合是用户设定的,而随机搜索的参数取值则是指定好区间(最大值和最小值)由随机数发生器随机生成的,而想要生成多少种组合是可以设置的。以下是《Hands-On ML, 2nd Edition》一书中提供的RandomizedSearchCV示例代码:

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
param_distribs = {
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=1, high=8),
    }
forest_reg = RandomForestRegressor(random_state=42)
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

在这份代码中,作者针对n_estimators和max_features两个超参分别设定了 1 ~ 200 和 1 ~ 8 的取值区间,然后通过设定参数n_iter=10将参数组合数设定为10,当然,叠加上交叉验证cv=5后,实际的训练就是 5 × 10 = 50 次了。

到此这篇关于Sklearn调优之网格搜索与随机搜索原理详细分析的文章就介绍到这了,更多相关Sklearn网格搜索与随机搜索内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Sklearn调优之网格搜索与随机搜索原理详细分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Sklearn调优之网格搜索与随机搜索原理详细分析

这篇文章主要介绍了Sklearn调优之网格搜索与随机搜索原理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
2023-02-11

Sklearn调优之网格搜索与随机搜索原理是什么

这篇“Sklearn调优之网格搜索与随机搜索原理是什么”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Sklearn调优之网格
2023-07-05

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录