一 基本概念
-
什么是分类:
- 分类器 构造模型来预测类标号
- 预测器 构造的模型是预测连续值函数或有序值,而不是类标号(回归分析是数值预测最常用的统计学方法)
-
一般包含两个过程:
- 学习阶段(构建分类模型):建立描述预先定义的数据类或概念集的分类器,分类算法通过分析或从训练集"学习"来构造分类器
- 和分类阶段(使用模型预测给定的类标号)
是一种监督学习,即分类器的学习在被告知每个训练元祖属于哪个类的“监督”下进行 区别于无监督学习(或聚类),每个训练元组的类标号未知,并且要学习的类的个数或集合也可能事先不知道
关于分类准确率:第二阶段首先要评估分类器的预测准确率。如果我们使用训练集来度量分类器的准确率,则评估可能是乐观的,因为分类器趋向于过分拟合该数据(即在学习期间,他可能包含了训练数据中的某些特定的异常,这些异常不一定在一般数据集中出现)。因此,需要使用由检验元组和他们相关联的类标号组成检验集(独 立于训练元组)
分类器在给定检验集上的准确率是分类器正确分类的检验元组所占的百分比。每个检验元组的类标号与学习模型对该元组的类预测进行比较。如果认为分类器的准确率可以接受,那么就可以用它对类标号未知的数据元组进行分类
二 决策树
三 k最近邻算法
四 朴素贝叶斯分类
六 * 支持向量机通俗导论 ********** 支持向量机 ***SVM松弛变量
七 什么是co-training ####### 协同训练算法之co-training ######PU learning算法简介 ####特征选择方法、网格搜索调参、不平衡处理、pu-learning