我的编程空间,编程开发者的网络收藏夹
学习永远不晚

使用Python中从头开始构建决策树算法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

使用Python中从头开始构建决策树算法

决策树(Decision Tree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这类算法的基础知识。

在深入研究代码之前,我们先要了解支撑决策树的数学概念:熵和信息增益

熵:杂质的量度

熵作为度量来量化数据集中的杂质或无序。特别是对于决策树,熵有助于衡量与一组标签相关的不确定性。数学上,数据集S的熵用以下公式计算:

 Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示数据集中正标签的比例,P_neg表示数据集中负标签的比例。

更高的熵意味着更大的不确定性或杂质,而更低的熵意味着更均匀的数据集。

信息增益:通过拆分提升知识

信息增益是评估通过基于特定属性划分数据集所获得的熵的减少。也就是说它衡量的是执行分割后标签确定性的增加。

数学上,对数据集S中属性a进行分割的信息增益计算如下:

 Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始数据集,A表示要拆分的属性。S_v表示属性A保存值v的S的子集。

目标是通过选择使信息增益最大化的属性,在决策树中创建信息量最大的分割。

在Python中实现决策树算法

有了以上的基础,就可以使用Python从头开始编写Decision Tree算法。

首先导入基本的numpy库,它将有助于我们的算法实现。

 import numpy as np

创建DecisionTree类

 class DecisionTree:     def __init__(self, max_depth=None):         self.max_depth = max_depth

定义了DecisionTree类来封装决策树。max_depth参数是树的最大深度,以防止过拟合。

 def fit(self, X, y, depth=0):         n_samples, n_features = X.shape         unique_classes = np.unique(y)                  # Base cases         if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:             self.label = unique_classes[np.argmax(np.bincount(y))]             return

拟合方法是决策树算法的核心。它需要训练数据X和相应的标签,以及一个可选的深度参数来跟踪树的深度。我们以最简单的方式处理树的生长:达到最大深度或者遇到纯类。

确定最佳分割属性,循环遍历所有属性以找到信息增益最大化的属性。_information_gain方法(稍后解释)帮助计算每个属性的信息增益。

 best_attribute = None best_info_gain = -1 for feature in range(n_features):             info_gain = self._information_gain(X, y, feature)             if info_gain > best_info_gain:                 best_info_gain = info_gain                 best_attribute = feature

处理不分割属性,如果没有属性产生正的信息增益,则将类标签分配为节点的标签。

 if best_attribute is None:             self.label = unique_classes[np.argmax(np.bincount(y))]             return

分割和递归调用,下面代码确定了分割的最佳属性,并创建两个子节点。根据属性的阈值将数据集划分为左右两个子集。

 self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold     right_indices = ~left_indices      self.left = DecisionTree(max_depth=self.max_depth)     self.right = DecisionTree(max_depth=self.max_depth)      self.left.fit(X[left_indices], y[left_indices], depth + 1)     self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通过递归调用左子集和右子集的fit方法来构建子树。

预测方法使用训练好的决策树进行预测。如果到达一个叶节点(带有标签的节点),它将叶节点的标签分配给X中的所有数据点。

 def predict(self, X):         if hasattr(self, 'label'):             return np.array([self.label] * X.shape[0])

当遇到非叶节点时,predict方法根据属性阈值递归遍历树的左子树和右子树。来自双方的预测被连接起来形成最终的预测数组。

 is_left = X[:, self.attribute] <= self.threshold         left_predictions = self.left.predict(X[is_left])         right_predictions = self.right.predict(X[~is_left])                  return np.concatenate((left_predictions, right_predictions))

下面两个方法是决策树的核心代码,并且可以使用不同的算法来进行计算,比如ID3 算法使用信息增益作为特征选择的标准,该标准度量了将某特征用于划分数据后,对分类结果的不确定性减少的程度。算法通过递归地选择信息增益最大的特征来构建决策树,也就是我们现在要演示的算法。

_information_gain方法计算给定属性的信息增益。它计算分裂后子熵的加权平均值,并从父熵中减去它。

 def _information_gain(self, X, y, feature):         parent_entropy = self._entropy(y)                  unique_values = np.unique(X[:, feature])         weighted_child_entropy = 0                  for value in unique_values:             is_value = X[:, feature] == value             child_entropy = self._entropy(y[is_value])             weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                  return parent_entropy - weighted_child_entropy

熵的计算

 def _entropy(self, y):         _, counts = np.unique(y, return_counts=True)         probabilities = counts / len(y)         return -np.sum(probabilities * np.log2(probabilities))

_entropy方法计算数据集y的熵,它计算每个类的概率,然后使用前面提到的公式计算熵。

常见的算法还有:

C4.5 是 ID3 的改进版本,C4.5 算法在特征选择时使用信息增益比,这是对信息增益的一种归一化,用于解决信息增益在选择特征时偏向于取值较多的特征的问题。

CART 与 ID3 和 C4.5 算法不同,CART(Classification And Regression Tree)又被称为分类回归树,算法采用基尼不纯度(Gini impurity)来度量节点的不确定性,该不纯度度量了从节点中随机选取两个样本,它们属于不同类别的概率。

ID3、C4.5 和 CART 算法都是基于决策树的经典算法,像Xgboost就是使用的CART 作为基础模型。

总结

以上就是使用Python中构造了一个完整的决策树算法的全部。决策树的核心思想是根据数据的特征逐步进行划分,使得每个子集内的数据尽量属于同一类别或具有相似的数值。在构建决策树时,通常会使用一些算法来选择最佳的特征和分割点,以达到更好的分类或预测效果。

https://avoid.overfit.cn/post/212f6b68e0d441c2b3db40304e637e32

作者:Matteo Possamai

来源地址:https://blog.csdn.net/m0_46510245/article/details/132159614

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

使用Python中从头开始构建决策树算法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用c++从头开始实现决策树

小编给大家分享一下如何使用c++从头开始实现决策树,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Python已经成为数据科学的语言之王。大多数新的数据科学家和程序
2023-06-15

怎么用Python中从头开始的实现完整的异常检测算法

这篇文章主要介绍“怎么用Python中从头开始的实现完整的异常检测算法”,在日常操作中,相信很多人在怎么用Python中从头开始的实现完整的异常检测算法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Py
2023-06-16

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录