刚开始介绍聚类。
刚开始介绍聚类。
如果某个字段的图形 不是正态分布的 ,就不能用正态方法估计概率。则可以用离散化
则要换办法
用Tan 模型。离散化组数Break 不要太多。不然会出现零的概率。
Tan:放宽独立性的假设
计算x2的概率时,除了学参考Y外,可能还需参考x1,最多一个x输入属性当parent
模型评估:
正确率accuracy
回应率 命中率precisom:
捕捉率 、查全率:看有没有漏网之鱼
F指标:同时考虑回应率和捕捉率
朴素贝式网络:
概率为0的处理:每个数都加0.5
空值处理:视而不见,不算它
数值型字段的处理:
1.将数值型属性离散化,使数值型变成类别型
2.正态分布的公式,越接近u,概率越大、
模型是自动会更新的。updatable learning。尤其是在Big Data中,如过滤大量的垃圾文件
贝式网络:基于概率论
朴素贝叶斯
贝式定理:条件概率
P(Y|X)
除了要预测YES NO。 还要知道概率。(两个概率之和为1)
独立性假设:
推估男女