基于概率论的分类方法-朴素贝叶斯

基于贝叶斯决策理论的分类方法

Tips:贝叶斯概率 Bayes

Tips:频数概率 frequanecy probability

数据集及其类别

条件概率 conditional probability

贝叶斯准则

使用条件概率来分类

使用朴素贝叶斯进行文档分类

使用Python进行文本分类

准备数据:从文本中构建词向量

Tips:朴素贝叶斯分类器实现方式

训练算法:从词向量计算概率

  • 伪代码
    • 计算每个类别中的文档数目
    • 对每篇训练文档
      • 对每个类别
        • 如果词条出现文档中 -> 增加该词条的计数值
        • 增加所有词条的计数值
      • 对每个类别
        • 对每个词条
          • 将该词条的数目除以总词条数目得到条件概率
      • 返回每个类别的条件概率

测试算法:根据现实情况修改分类器

准备数据:文档词袋模型

示例:使用朴素贝叶斯过滤垃圾

准备数据:切分文本

切分方法

测试算法:使用朴素贝叶斯进行交叉验证