我的编程空间,编程开发者的网络收藏夹
学习永远不晚

LightGBM调参贝叶斯全局优化方法是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

LightGBM调参贝叶斯全局优化方法是什么

这篇文章主要介绍“LightGBM调参贝叶斯全局优化方法是什么”,在日常操作中,相信很多人在LightGBM调参贝叶斯全局优化方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”LightGBM调参贝叶斯全局优化方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

  这里结合Kaggle比赛的一个数据集,记录一下使用贝叶斯全局优化和高斯过程来寻找最佳参数的方法步骤。

  1.安装贝叶斯全局优化库

  从pip安装最新版本

  pip install bayesian-optimization

  2.加载数据集

  import pandas as pd

  import numpy as np

  from sklearn.model_selection import StratifiedKFold

  from scipy.stats import rankdata

  from sklearn import metrics

  import lightgbm as lgb

  import warnings

  import gc

  pd.set_option('display.max_columns', 200)

  train_df = pd.read_csv('../input/train.csv')

  test_df = pd.read_csv('../input/test.csv')

  目标变量的分布

  target = 'target'

  predictors = train_df.columns.values.tolist()[2:]

  train_df.target.value_counts()

LightGBM调参贝叶斯全局优化方法是什么

  问题是不平衡。这里使用50%分层行作为保持行,以便验证集获得最佳参数。 稍后将在最终模型拟合中使用5折交叉验证。

  bayesian_tr_index, bayesian_val_index = list(StratifiedKFold(n_splits=2,

  shuffle=True, random_state=1).split(train_df, train_df.target.values))[0]

  这些bayesian_tr_index和bayesian_val_index索引将用于贝叶斯优化,作为训练和验证数据集的索引。

  3.黑盒函数优化(LightGBM)

  在加载数据时,为LightGBM创建黑盒函数以查找参数。

  def LGB_bayesian(

  num_leaves, # int

  min_data_in_leaf, # int

  learning_rate,

  min_sum_hessian_in_leaf, # int

  feature_fraction,

  lambda_l1,

  lambda_l2,

  min_gain_to_split,

  max_depth):

  # LightGBM expects next three parameters need to be integer. So we make them integer

  num_leaves = int(num_leaves)

  min_data_in_leaf = int(min_data_in_leaf)

  max_depth = int(max_depth)

  assert type(num_leaves) == int

  assert type(min_data_in_leaf) == int

  assert type(max_depth) == int

  param = {

  'num_leaves': num_leaves,

  'max_bin': 63,

  'min_data_in_leaf': min_data_in_leaf,

  'learning_rate': learning_rate,

  'min_sum_hessian_in_leaf': min_sum_hessian_in_leaf,

  'bagging_fraction': 1.0,

  'bagging_freq': 5,

  'feature_fraction': feature_fraction,

  'lambda_l1': lambda_l1,

  'lambda_l2': lambda_l2,

  'min_gain_to_split': min_gain_to_split,

  'max_depth': max_depth,

  'save_binary': True,

  'seed': 1337,

  'feature_fraction_seed': 1337,

  'bagging_seed': 1337,

  'drop_seed': 1337,

  'data_random_seed': 1337,

  'objective': 'binary',

  'boosting_type': 'gbdt',

  'verbose': 1,

  'metric': 'auc',

  'is_unbalance': True,

  'boost_from_average': False,

  }

  xg_train = lgb.Dataset(train_df.iloc[bayesian_tr_index][predictors].values,

  label=train_df.iloc[bayesian_tr_index][target].values,

  feature_name=predictors,

  free_raw_data = False

  )

  xg_valid = lgb.Dataset(train_df.iloc[bayesian_val_index][predictors].values,

  label=train_df.iloc[bayesian_val_index][target].values,

  feature_name=predictors,

  free_raw_data = False

  )

  num_round = 5000

  clf = lgb.train(param, xg_train, num_round, valid_sets = [xg_valid], verbose_eval=250, early_stopping_rounds = 50)

  predictions = clf.predict(train_df.iloc[bayesian_val_index][predictors].values, num_iteration=clf.best_iteration)

  score = metrics.roc_auc_score(train_df.iloc[bayesian_val_index][target].values, predictions)

  return score

  上面的LGB_bayesian函数将作为贝叶斯优化的黑盒函数。 我已经在LGB_bayesian函数中为LightGBM定义了trainng和validation数据集。

  LGB_bayesian函数从贝叶斯优化框架获取num_leaves,min_data_in_leaf,learning_rate,min_sum_hessian_in_leaf,feature_fraction,lambda_l1,lambda_l2,min_gain_to_split,max_depth的值。 请记住,对于LightGBM,num_leaves,min_data_in_leaf和max_depth应该是整数。 但贝叶斯优化会发送连续的函数。 所以我强制它们是整数。 我只会找到它们的最佳参数值。 读者可以增加或减少要优化的参数数量。

  现在需要为这些参数提供边界,以便贝叶斯优化仅在边界内搜索。

  bounds_LGB = {

  'num_leaves': (5, 20),

  'min_data_in_leaf': (5, 20),

  'learning_rate': (0.01, 0.3),

  'min_sum_hessian_in_leaf': (0.00001, 0.01),

  'feature_fraction': (0.05, 0.5),

  'lambda_l1': (0, 5.0),

  'lambda_l2': (0, 5.0),

  'min_gain_to_split': (0, 1.0),

  'max_depth':(3,15),

  }

  让我们将它们全部放在BayesianOptimization对象中

  from bayes_opt import BayesianOptimization

  LGB_BO = BayesianOptimization(LGB_bayesian, bounds_LGB, random_state=13)

  现在,让我们来优化key space (parameters):

  print(LGB_BO.space.keys)

LightGBM调参贝叶斯全局优化方法是什么

  我创建了BayesianOptimization对象(LGB_BO),在调用maxime之前它不会工作。在调用之前,解释一下贝叶斯优化对象(LGB_BO)的两个参数,我们可以传递给它们进行最大化:

  init_points:我们想要执行的随机探索的初始随机运行次数。 在我们的例子中,LGB_bayesian将被运行n_iter次。

  n_iter:运行init_points数后,我们要执行多少次贝叶斯优化运行。

  现在,是时候从贝叶斯优化框架调用函数来最大化。 我允许LGB_BO对象运行5个init_points和5个n_iter。

  init_points = 5

  n_iter = 5

  print('-' * 130)

  with warnings.catch_warnings():

  warnings.filterwarnings('ignore')

  LGB_BO.maximize(init_points=init_points, n_iter=n_iter, acq='ucb', xi=0.0, alpha=1e-6)

  优化完成后,让我们看看我们得到的最大值是多少。

  LGB_BO.max['target']

LightGBM调参贝叶斯全局优化方法是什么

  参数的验证AUC是0.89, 让我们看看参数:

  LGB_BO.max['params']

  现在我们可以将这些参数用于我们的最终模型!

  BayesianOptimization库中还有一个很酷的选项。 你可以探测LGB_bayesian函数,如果你对最佳参数有所了解,或者您从其他kernel获取参数。 我将在此复制并粘贴其他内核中的参数。 你可以按照以下方式进行探测:

  LGB_BO.probe(

  params={'feature_fraction': 0.1403,

  'lambda_l1': 4.218,

  'lambda_l2': 1.734,

  'learning_rate': 0.07,

  'max_depth': 14,

  'min_data_in_leaf': 17,

  'min_gain_to_split': 0.1501,

  'min_sum_hessian_in_leaf': 0.000446,

  'num_leaves': 6},

  lazy=True, #

  )

  好的,默认情况下这些将被懒惰地探索(lazy = True),这意味着只有在你下次调用maxime时才会评估这些点。 让我们对LGB_BO对象进行最大化调用。

  LGB_BO.maximize(init_points=0, n_iter=0) # remember no init_points or n_iter

  最后,通过属性LGB_BO.res可以获得探测的所有参数列表及其相应的目标值。

  for i, res in enumerate(LGB_BO.res):

  print("Iteration {}: \n\t{}".format(i, res))

  我们在调查中获得了更好的验证分数!和以前一样,我只运行LGB_BO 10次。在实践中,我将它增加到100。

  LGB_BO.max['target']

  LGB_BO.max['params']

  让我们一起构建一个模型使用这些参数。

  4.训练LightGBM模型

  param_lgb = {

  'num_leaves': int(LGB_BO.max['params']['num_leaves']), # remember to int here

  'max_bin': 63,

  'min_data_in_leaf': int(LGB_BO.max['params']['min_data_in_leaf']), # remember to int here

  'learning_rate': LGB_BO.max['params']['learning_rate'],

  'min_sum_hessian_in_leaf': LGB_BO.max['params']['min_sum_hessian_in_leaf'],

  'bagging_fraction': 1.0,

  'bagging_freq': 5,

  'feature_fraction': LGB_BO.max['params']['feature_fraction'],

  'lambda_l1': LGB_BO.max['params']['lambda_l1'],

  'lambda_l2': LGB_BO.max['params']['lambda_l2'],

  'min_gain_to_split': LGB_BO.max['params']['min_gain_to_split'],

  'max_depth': int(LGB_BO.max['params']['max_depth']), # remember to int here

  'save_binary': True,

  'seed': 1337,

  'feature_fraction_seed': 1337,

  'bagging_seed': 1337,

  'drop_seed': 1337,

  'data_random_seed': 1337,

  'objective': 'binary',

  'boosting_type': 'gbdt',

  'verbose': 1,

  'metric': 'auc',

  'is_unbalance': True,

  'boost_from_average': False,

  }

  如您所见,我将LGB_BO的最佳参数保存到param_lgb字典中,它们将用于训练5折的模型。

  Kfolds数量:无锡妇科检查医院 http://www.87554006.com/

  nfold = 5

  gc.collect()

  skf = StratifiedKFold(n_splits=nfold, shuffle=True, random_state=2019)

  oof = np.zeros(len(train_df))

  predictions = np.zeros((len(test_df),nfold))

  i = 1

  for train_index, valid_index in skf.split(train_df, train_df.target.values):

  print("\nfold {}".format(i))

  xg_train = lgb.Dataset(train_df.iloc[train_index][predictors].values,

  label=train_df.iloc[train_index][target].values,

  feature_name=predictors,

  free_raw_data = False

  )

  xg_valid = lgb.Dataset(train_df.iloc[valid_index][predictors].values,

  label=train_df.iloc[valid_index][target].values,

  feature_name=predictors,

  free_raw_data = False

  )

  clf = lgb.train(param_lgb, xg_train, 5000, valid_sets = [xg_valid], verbose_eval=250, early_stopping_rounds = 50)

  oof[valid_index] = clf.predict(train_df.iloc[valid_index][predictors].values, num_iteration=clf.best_iteration)

  predictions[:,i-1] += clf.predict(test_df[predictors], num_iteration=clf.best_iteration)

  i = i + 1

  print("\n\nCV AUC: {:<0.2f}".format(metrics.roc_auc_score(train_df.target.values, oof)))

  所以我们在5折交叉验证中获得了0.90 AUC。

  让我们对5折预测进行排名平均。

  5.排名平均值

  print("Rank averaging on", nfold, "fold predictions")

  rank_predictions = np.zeros((predictions.shape[0],1))

  for i in range(nfold):

  rank_predictions[:, 0] = np.add(rank_predictions[:, 0], rankdata(predictions[:, i].reshape(-1,1))/rank_predictions.shape[0])

  rank_predictions /= nfold

  6.提交

  sub_df = pd.DataFrame({"ID_code": test_df.ID_code.values})

  sub_df["target"] = rank_predictions

  sub_df.to_csv("Customer_Transaction_rank_predictions.csv", index=False)

到此,关于“LightGBM调参贝叶斯全局优化方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

LightGBM调参贝叶斯全局优化方法是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

LightGBM调参贝叶斯全局优化方法是什么

这篇文章主要介绍“LightGBM调参贝叶斯全局优化方法是什么”,在日常操作中,相信很多人在LightGBM调参贝叶斯全局优化方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”LightGBM调参贝叶斯
2023-06-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录