第三章 决策树分类
[TOC]
分类:确定对象属于哪个 预定义 的目标类(目标类的总体是已知的)。分类问题中,类标号必须是离散属性,这也是区分分类和回归(regression,回归的目标属性是连续的)的关键特征。
分类,classification,通过学习训练样本得到一个目标函数f(target function),把属性集x映射到预先定义的类标号y。
分类模型(classification model)有两个目的:
分类技术特点:适合描述或预测二元或标称类型的数据集,对序数分类不太有效,因为分类技术不考虑隐含在目标类中的序号关系。(即分类器只负责区分元素们属于哪一类,对于某一类中的元素之间的序关系不做表达)
分类方法:决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。殊途同归,都是通过学习算法(learning algorithm)从训练数据集提炼一种模型拟合输入数据的类标号和属性之间的联系。
泛化 :在模型的评估中,泛化是一个重要的概念,它表达通过已知数据建立的模型在应用到未知数据上的时候的有效性。这个泛可以理解为广泛、扩大,从特定的已有的数据一般化到所有的未知的数据。
分类过程:$$训练集(training set)\rightarrow学习模型\rightarrow模型\rightarrow应用模型\rightarrow检验集(test set)$$
模型评估 :通过正确和错误的记录数量评估,列一个混淆矩阵(confusion matrix)可清晰算得相应的新能度量(performance metric)。
分类模型误差:
模型拟合不足(model underfitting),训练和泛化误差都很大,原因是模型尚未学到数据的真实结构。
模型过分拟合(model overfitting),树的规模持续变大,训练误差持续降低,但泛化误差开始增大。
泛化误差估计
处理(避免)决策树归纳中的过分拟合
本章描述对某一个分类器的性能的评估方法。
本章描述两个或多个分类器之间的对比方法,针对不同分类方法在不同规模的数据集上的准确性比较。即得到不同分类方法在忽略数据量下的性能对比。
任务一:决策树-最佳属性划分度量-连续属性划分算法,实现二分划分点选择算法,考虑连续属性的多路划分的划分点选择算法【深入研究切入点:C4.5算法】。
任务二:决策树-决策树归纳算法
任务三:尝试树剪枝