分类

一基本概念

什么是分类：
- 分类器构造模型来预测类标号
- 预测器构造的模型是预测连续值函数或有序值，而不是类标号(回归分析是数值预测最常用的统计学方法)
一般包含两个过程：
- 学习阶段（构建分类模型）:建立描述预先定义的数据类或概念集的分类器，分类算法通过分析或从训练集"学习"来构造分类器
- 和分类阶段（使用模型预测给定的类标号）

是一种监督学习，即分类器的学习在被告知每个训练元祖属于哪个类的“监督”下进行区别于无监督学习（或聚类），每个训练元组的类标号未知，并且要学习的类的个数或集合也可能事先不知道

关于分类准确率：第二阶段首先要评估分类器的预测准确率。如果我们使用训练集来度量分类器的准确率，则评估可能是乐观的，因为分类器趋向于过分拟合该数据（即在学习期间，他可能包含了训练数据中的某些特定的异常，这些异常不一定在一般数据集中出现）。因此，需要使用由检验元组和他们相关联的类标号组成检验集（独立于训练元组）