贝叶斯分类器

核心思想

贝叶斯分类器是一种基于贝叶斯定理的统计分类方法。在给定数据的情况下,它使用概率模型来预测数据点的类别。贝叶斯分类器的核心思想是,对于给定的样本,我们可以计算它属于每个类别的概率,并将样本分配给概率最大的类别

贝叶斯公式: \[ P(A | B) = \frac{P(B | A) P(A)}{P(B)} \]

  • 先验概率(Prior Probability):指在没有额外信息的情况下,一个事件发生的概率。
  • 后验概率(Posterior Probability):给定某些证据后,时间发生的概率。
  • 似然性(Likelihood):给定假设为真时观察到证据的概率。

使用后验概率来进行分类的分类器称之为贝叶斯分类器(Bayes Classifier)

数学表示

我们以二分类问题为例,假设在数据集 \(S\) 中的数据有两个类 \(A\)\(B\) ,则贝叶斯分类器一般用优势比(Odds Ratio)来描述某个数据点的所属类别: \[ \frac{P(y = A|x)}{P(y = B|x)} \]

若上式子大于 1,即 \(P(y = A | x) > P(y = B | x)\),则认为数据点的特征向量为 \(x\) 的情况下,其属于 \(A\) 类的概率更大,反之则认为其属于 \(B\) 类的概率更大。

根据贝叶斯公式,上式可以表示为: \[ \frac{P(x | y = A) P(y = A)}{P(x | y = B) P(y = B)} \] 其中 \(P(y = A)\)\(P(y = B)\) 由两个类别在数据集中的占比决定,而 \(P(x | y = A)\)\(P(x | y = B)\) 则由两个类别中数据的分布相关。

判别分析

判别分析(Discriminant Analysis)是机器学习和统计学中的一种技术,用于将一组观测值分类到预定义的类别中。该方法假设不同的类别通过不同的高斯分布(Guassian Distribution)生成数据。

\[ p(x | y = A) = \frac{1}{(2 \pi) ^ {\frac{d}{2}} {|\Sigma_A|} ^ \frac{1}{2}} exp(-\frac{1}{2}(x - \mu_A) ^ T \Sigma_A^{-1} (x - \mu_A)) \]

\[ p(x | y = B) = \frac{1}{(2 \pi) ^ {\frac{d}{2}} {|\Sigma_B|} ^ \frac{1}{2}} exp(-\frac{1}{2}(x - \mu_B) ^ T \Sigma_B^{-1} (x - \mu_B)) \]

主要类型的判别分析包括:

  1. 线性判别分析(Linear Discrinant Analysis,LDA):这种方法假设不同类别具有相同的协方差矩阵。它找到一个特征的线性组合,这个组合能够表征或者区分两个或多个类别。目的是在类别之间找到一个线性边界

  2. 二次判别分析(Quadratic Discrinant Analysis,QDA):与 LDA 不同,QDA 假设每个类别都有自己的协方差矩阵。它在分类上更加灵活,因为它可以创建二次边界,因此得名。

通常而言,两个类别的协方差矩阵相等或者十分接近,例如其差值的矩阵二范数 \(||\Sigma_A - \Sigma_B || ^ 2\) 是一个很小的值,我们就可以认为数据集的判别分析类型为 LDA。

考虑错误分类成本

在机器学习和统计分类问题中,错误分类成本(Misclassification Costs)指的是将一个实例错误分类为另一个类别时所产生的代价或损失。在某些情况下,不同类型的错误可能会导致不同程度的负面影响。例如,在医疗诊断中,将患有疾病的病人错误地判定为健康(漏诊)通常比将健康的病人错误判定为患病(误诊)带来更严重的后果。

错误分类成本可以是不对称的,意味着对于不同的错误分类,成本可以不一样。在设计分类器时,我们通常希望最小化总体的错误分类成本,而不仅仅是错误分类的数量。

考虑错误分类成本的贝叶斯分类器(也称为成本敏感的贝叶斯分类器)是一种在决策过程中考虑到不同类型错误分类所带来成本的分类器。这种分类器不仅仅追求最大化整体的准确率,而是尝试最小化总的期望分类成本。

以上文提及的二分类为例,我们定义成本矩阵(Costs Matrix)\[ C = \begin{bmatrix} C(A | A) & C(A | B) \\ C(B | A) & C(B | B) \end{bmatrix} \] 在成本矩阵中 \(C(I | J)\) 表示将标签为 \(J\) 类的数据识别为 \(I\) 类需要付出的成本。

对于一个新的实例 \(x\) ,我们可以计算出其属于每个类别的期望成本: \[ EC(y = A | x) = P(y = A | x)C(A | A) + P(y = B | x) C(A | B) \]

\[ EC(y = B | x) = P(y = B | x)C(B | B) + P(y = A | x)C(B | A) \]

最后我们只需要选择期望成本最小的类别即可,我们一般认为 \(C(A | A) = C(B | B) = 0\),因为通常情况下正确识别不需要花费额外的成本。

因此考虑错误分类成本的优势比可以表示如下: \[ \frac{P(y = A | x)C(B | A)}{P(y = B | x)C(A | B)} \] 即如果满足 \(\frac{P(y = A | x)}{P(y = B |x)} > T\ (T = \frac{C(A | B)}{C(B | A)})\) ,则考虑将样本 \(x\) 划分为 A 类更合适。\(T\) 在这里就是分类器的阈值,不同的 \(T\) 会有不同的分类边界。

分类器的评估

混淆矩阵

混淆矩阵(Confusion Matrix)是一种特定的表格用于可视化算法性能,尤其是在监督学习中对分类问题的性能评估。它展示了实际类别与模型预测类别之间的关系,以此来揭示模型在各个类别上的错误类型。

对于一个二分类问题,混淆矩阵包含四个部分:

  1. 真正例(True Positives, TP):模型正确预测为正类的数量。
  2. 假正例(False Positives, FP):模型错误预测为正类的数量。
  3. 真负例(True Negatives, TN):模型正确预测为负类的数量。
  4. 假负例(False Negatives, FN):模型错误预测为负类的数量。

混淆矩阵通常如下所示:

\[ \begin{array}{cc} & \text{预测正类} & \text{预测负类} \\ \text{实际正类} & TP & FN \\ \text{实际负类} & FP & TN \\ \end{array} \] 这个矩阵使我们能够快速计算出几个重要的性能指标,如:

  • 准确率(Accuracy):所有正确分类的观测值占总观测值的比例,计算公式为 \((TP + TN) / (TP + TN + FP + FN)\)
  • 精确率(Precision):正确预测为正类的观测值占预测为正类的比例,计算公式为 \(TP / (TP + FP)\)
  • 召回率(Recall)或灵敏度(Sensitivity):正确预测为正类的观测值占实际正类的比例,计算公式为 \(TP / (TP + FN)\)
  • 特异性(Specificity):正确预测为负类的观测值占实际负类的比例,计算公式为 \(TN / (TN + FP)\)

解决一个分类问题,实际上即使要找到一个分类边界,可以最大化敏感度特异性

ROC 平面与 AUC 指标

ROC(接收者操作特征)平面是用来评估二分类系统性能的图形化工具。它通过绘制真正例率(True Positive Rate, TPR)对假正例率(False Positive Rate, FPR)来展示分类器的性能。

在 ROC 平面中:

  • 真正例率(TPR),也就是召回率(Recall)或灵敏度(Sensitivity),是指正确识别为正例的样本占所有实际正例的比例。计算公式为:\(\text{TPR} = \frac{TP}{TP + FN}\)
  • 假正例率(FPR),是指错误识别为正例的样本占所有实际负例的比例。计算公式为:\(\text{FPR} = \frac{FP}{TN + FN}\) ,即 \(1 - \text{specificity}\)

在 ROC 曲线上,每个点代表对应于某个决策阈值的(FPR,TPR)对。曲线下面积(Area Under the Curve,AUC)用来量化分类器的总体性能:AUC值为 1 表示完美分类器,AUC 值为 0.5 表示无效分类器,即其性能不如随机猜测

ROC平面上的主要特点包括:

  1. ROC 曲线越靠近左上角,分类器的性能越好:这意味着高的真正例率和低的假正例率。
  2. ROC 曲线下的面积(AUC)越大,分类器的整体性能越好:它为我们提供了一个分类器性能的单一度量,可以用来比较不同的分类器。
  3. ROC 曲线提供了一个无需担心类别分布或者决策阈值选择的性能度量:这使得它在评估不平衡数据集的分类器时特别有用。

因此,ROC平面和AUC指标是评估和比较分类模型性能的强有力工具。它们允许我们在不同的阈值设置下考虑分类器的性能,为选择最佳模型提供了依据。


贝叶斯分类器
https://goer17.github.io/2023/10/14/贝叶斯分类器/
作者
Captain_Lee
发布于
2023年10月14日
许可协议