cp=0 代表不做砍树动作
minsplit
cp=0 代表不做砍树动作
minsplit
回归树:
CART分类树算法:
classification and regression tree
只会构建二元分类:避免分支度太多
首先是看目标字段平均分布还是偏分布。算Gini,越靠近0.5,是平均。 ID3是算intropy接近。
第一层分类树:然后算各类道路距离Gini index,越小越好,因为与主Gini越远。
砍树:由验证数据来决定是否砍树,看错误率。从下往上砍,看错误率有没有上一级的错误率大,大就砍掉。
连续型:gini最小的。最小的就是切点‘
CHAID属性 选择方法:卡方统计量:必须都是类别型数据。 卡方值越大,代表该字段与目标字段关系越密切。
根据p值确定树是否往下长。卡方越大,选择它来作为第一个’
预测: 直接(分类树)
间接预测(分类规则与优化)
分类树与分类有差异
分类树的属性选择
字段选择(用ID3 C4.5算法去选择)
ID3算法
目标字段:确定平均分布还是 偏分布
两类结果的目标字段的entryny:I(s1,s2)越接近1.代表平均分布
选择其他字段:越重要的字段,entryny下降的越大,正确率也就 越高。可以根据Entry推测出先选哪个字段来分枝。
ID3算法的缺点
无法处理数值型字段,无法处理空值,它不会砍树
C4.5:获利比率Gain R:改善分支度越高就好的错误认知。(information value),分支度度越高 ,获利比例低
处理连续型变量
处理连续型;离散。找到GR最大的点。
分类树砍树:
1.修剪法
2.盆栽法
C4.5的砍树方法;评估展开的错误率,和收起来的错误率。算法非常复杂
决策树: 分类树 和回归树..
分类:要有ID吗,目标字段 必须是 类别字段。输入字段不必是这样
回归:目标字段必须是数值字段。
训练阶段
测试阶段: 命中率,捕捉率,F值
分类树的种类:字段选择,选择正确率会提高的字段
砍树:砍掉末端枝条,因为希望测试数据的正确率比较高。末端样本少,代表性不高。避免过度拟合