决策树算法决策树学习

决策树算法决策树学习目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类

决策树学习本质上是从训练数据集中归纳出一组分类规则

能对训练数据进行正确分类的决策树可能有多个,可能没有

在选择决策树时,应选择一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力;而且选择的条件概率模型应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测

 损失函数:通常是正则化的极大似然函数策略:是以损失函数为目标函数的最小化因为从所有可能的决策树中选取最优决策树是NP完全问题,所以现实中决策树学习通常采用启发式方法,近似求解这一最优化问题,得到的决策树是次最优(sub-optimal)的

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程

包含特征选择、决策树的生成和决策树的剪枝过程

剪枝: 目的:将树变得更简单,从而使它具有更好的泛化能力

步骤:去掉过于细分的叶结点,使其回退到父结点,甚至更高的结点,然后将父结点或更高的结点改为新的叶结点

决策树的生成对应模型的局部选择,决策树的剪枝对应于模型的全局选择

决策树的生成只考虑局部最优,决策树的剪枝则考虑全局最优

特征选择:如果特征数量很多,在决策树学习开始时对特征进行选择,只留下对训练数据有足够分类能力的特征

(例如把名字不作为一个特征进行选择)

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关