Q1:什么是朴素贝叶斯分类器?
-
朴素贝叶斯分类器是一组简单的概率分类器,基于贝叶斯定理和特征之间的独立性假设
-
贝叶斯理论如下式所示:
$$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$ -
使用贝叶斯定理,可以推测在事件B发生的情况下,事件A发生的概率
Q2:朴素贝叶斯分类器的假设?
- 朴素贝叶斯分类器贝叶斯分类器假设特征之间相互独立,条件概率分布满足条件独立性
- 朴素贝叶斯模型假设特征之间相互独立,这个假设在实际应用中往往是不成立的,在特征个数比较多或者特征之间相关性较大时,分类效果不好
Q3:如何理解贝叶斯定理
- 贝叶斯定理用于确定条件概率,条件概率是指已知一些条件情况下,某事件发生的可能性
- 贝叶斯公式如下式,A和B为随机事件,
$P(A|B)$ 为已知B事件发生后,A事件发生的条件概率;贝叶斯公式由A、B事件的先验概率与似然性$P(B|A)$推断后验概率
Q4:如何根据训练集大小选择分类器?(system design)
- 对于小的训练集,具有高偏差和低方差模型的模型更好,因为它不太可能过拟合。如朴素贝叶斯。
- 对于大型训练集,具有低偏差和高方差模型的模型更好,因为它表示更复杂的关系。如逻辑回归。
Q5:如何使用朴素贝叶斯分类器来处理类别特征?如果某些特征是数值的呢?
- 对于类别特征,先将其处理为one-hot特征;若有N个类别,则为贝叶斯分类器匹配地创建N个特征,每个特征取值0或1;处理数值特征时,可以将数值离散化为几个类别,再使用one-hot向量处理
引用:https://stats.stackexchange.com/
Q6:生成式模型与判别式模型有什么区别?列出两种模型的一个例子
- 判别式分类器学习数据空间中的分界面,将不同类别的数据分隔开来;生成式分类器学习整个数据空间的生成;
- 数学上来看,判别式模型学习条件概率$P(Y|X)$,生成式模型学习联合概率$P(X,Y)$
- 判别模型有逻辑回归,SVM,CRF,MLP,决策树等,生成模型有朴素贝叶斯、HMM、GAN、LDA
引用:https://www.analyticsvidhya.com/
Q7:阐述朴素贝叶斯分类器的工作流程
- 朴素贝叶斯分类器的工作流程大概分为以下两步:1.通过统计数据集中事件发生的频率计算先验概率和似然函数 2.根据贝叶斯定理计算后验概率,具有最高后验概率的类是预测的结果。
Q8:朴素贝叶斯分类器的优点是什么?
- 预测既简单又快速,在多类预测中也表现良好
- 当独立性假设成立时,朴素贝叶斯分类器与逻辑回归等其他模型相比表现更好,并且需要的训练数据更少。
引用:https://www.analyticsvidhya.com/
Q9:朴素贝叶斯分类器的缺点是什么?
- 如果分类变量在训练数据集中未观察到(先验概率为0),则贝叶斯分类模型将无法进行预测。这通常被称为“零频率”。为了解决这个问题,可以使用平滑技术,最简单的平滑技术是拉普拉斯估计。
- 朴素贝叶斯假设特征之间相互独立,在特征间有紧密联系时,分类性能可能很差
Q10:比较朴素贝叶斯算法与逻辑回归算法
- 朴素贝叶斯是一种生成模型,而 LR 是一种判别模型。
- 朴素贝叶斯适用于小型数据集, LR+正则化可以达到类似的性能。
- LR 在共线性(colinearity)方面比朴素贝叶斯表现更好,因为朴素贝叶斯期望所有特征都是独立的。
引用:https://towardsdatascience.com/
Q11:噪声数据对贝叶斯模型有什么样的影响?
- 噪声数据会影响贝叶斯模型计算中的先验概率和似然,因此会降低贝叶斯模型的准确率
Q12:什么是贝叶斯网络?
- 贝叶斯网络是一种概率图形模型,它使用贝叶斯推理进行概率计算。贝叶斯网络旨在通过在有向图中用边表示条件依赖来模拟因果关系。通过这些关系,人们可以通过使用因子有效地对图中的随机变量进行推理。
- 贝叶斯网络是**有向无环图,**其中每条边对应一个条件依赖,每个节点对应一个唯一的随机变量。
- 通过贝叶斯网络推理,可以评估网络中每个变量(或子集)的特定值的联合概率
Q13:使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
- 朴素贝叶斯的缺点之一是,它基于数据中出现的频率估计先验概率;如果某个类标签和特定的属性值,数据中没有出现过,那么基于频率的先验概率估计将为零,贝叶斯公式的分母将为0,无法计算;
- 在贝叶斯环境中克服这种“零频率问题”的方法是,为每个属性值-类组合的计数加一(拉普拉斯平滑方法)
Q14:贝叶斯统计中,“似然”和“后验概率”有什么区别?
- 统计学中,似然函数是一种关于统计模型参数的函数;“似然”描述了给定了特定观测值后,模型参数的合理性
- 后验概率是是关于结果的函数,在给定了模型参数之后,描述结果的合理性
- 后验概率等于似然*先验,如果先验概率函数是平坦的,那么后验概率数值上与似然一致
引用:https://stats.stackexchange.com/
Q15:贝叶斯统计中,“先验概率”和“后验概率”的区别?
- 先验概率表示某事件发生的概率,是与其他因素独立的分布
- 后验概率属于条件概率,指某相关因素发生后,事件发生的概率