决策树的优缺点
决策树的优点:
1.易于理解和解释,不需要使用者了解很多的背景知识,决策树可以可视化使读者在使用过程中逐步理解决策树。
2.能够快速适应数据集,可以处理数值和分类数据,在大型数据集上表现良好,速度极快。
3.相较大多数方法而言可以同时处理数值变量和分类变量。可以处理多值输出变量问题。
4.效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
5.便于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
决策树缺点:
1.对连续性的字段的预测较难,在有时间序列的数据集上面会花费过多时间预处理。
2.容易出现过拟合,即决策树学习可能创建一个过于复杂的树,并不能很好的预测数据。
3.当类别太多时,错误情况可能就会增加的比较快,同时忽视数据集之间的相关性
4.在处理特征关联性比较强的数据时表现得不是太好。
5.对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征决。
策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。