
朴素贝叶斯分类器是什么意思?
2023-11-10 · 百度认证:SPSSAU官方账号,优质教育领域创作者

贝叶斯模型是利用先贝叶斯定理进行计算的一种机器学习模型,并且此处涉及先验概率和后验概率。比如我们都知道去赌场会十赌九输,此是以前的经验,即为先验概率,也或者大家都知道抛硬币时上下面第一次都是1/2概率,这均为先验概率;如果发现一个人准备跳楼,那么此时他是因为赌博导致的概率是多少?此为后验概率。有了先验概率和后验证概率理解,结合贝叶斯定量即可计算出概率信息值。
接着,朴素贝叶斯是基于贝叶斯定量,并且加上条件(特征之间独立)的一种模型。此处特征属性之间独立是指比如:有100个数据,第1行数据与第2行,第3行等其它任意行数据之间并没有关系,此前提条件非常重要,但现实中较难成立,但这并没有妨碍其的广泛使用,可能原因在于朴素贝叶斯模型通于分类问题处理,其内部算法上会关注于条件概率排序并非具体概率数字,因而其具有一定容错能力,并且特征属性之间假如有着关系并不完全独立,其内部可能存在相关抵消现象。整体上看,朴素贝叶斯模型原理较为简单,且应用较为广泛,比如输入法时可能会进行纠错功能处理,也或者垃圾邮件的识别等。
朴素贝叶斯模型的原理较为简单,其利用贝叶斯概率公式,分别如下:
接着假定各特征属性独立,并且将公式进行展示成如下:
如果特征即自变量X全部均为连续定量数据,那么选择高斯分布即可(此为默认值);如果说特征即自变量X中全部均是定类数据且每个X的类别数量大于2,此时可选择多项式分布。如果每个特征全部都是0和1共两个数字,此时选择伯努利分布。如果特征中即包括连续定量数据,又包括定类数据,建议可对定类数据进行哑变量设置后,选择高斯分布。
训练集比例默认选择为:0.8即80%(150*0.8=120个样本)进行训练朴素贝叶斯模型,余下20%即30个样本(测试数据)用于模型的验证。需要注意的是,此处不进行处理也可以,尤其是自变量X中有定类数据是,建议默认不进行处理。
接着对参数设置如下:

2024-02-18 广告