CART分类树算法:
classification and regression tree
只会构建二元分类:避免分支度太多
首先是看目标字段平均分布还是偏分布。算Gini,越靠近0.5,是平均。 ID3是算intropy接近。
第一层分类树:然后算各类道路距离Gini index,越小越好,因为与主Gini越远。
砍树:由验证数据来决定是否砍树,看错误率。从下往上砍,看错误率有没有上一级的错误率大,大就砍掉。
连续型:gini最小的。最小的就是切点‘
CHAID属性 选择方法:卡方统计量:必须都是类别型数据。 卡方值越大,代表该字段与目标字段关系越密切。
根据p值确定树是否往下长。卡方越大,选择它来作为第一个’
预测: 直接(分类树)
间接预测(分类规则与优化)
分类树与分类有差异