分类树的属性选择
字段选择(用ID3 C4.5算法去选择)
ID3算法
目标字段:确定平均分布还是 偏分布
两类结果的目标字段的entryny:I(s1,s2)越接近1.代表平均分布
选择其他字段:越重要的字段,entryny下降的越大,正确率也就 越高。可以根据Entry推测出先选哪个字段来分枝。
ID3算法的缺点
无法处理数值型字段,无法处理空值,它不会砍树
C4.5:获利比率Gain R:改善分支度越高就好的错误认知。(information value),分支度度越高 ,获利比例低
处理连续型变量
处理连续型;离散。找到GR最大的点。
分类树砍树:
1.修剪法
2.盆栽法
C4.5的砍树方法;评估展开的错误率,和收起来的错误率。算法非常复杂