10人加入学习
(0人评价)
07 决策树算法模型

分而治之的算法模型-决策树

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

CART分类树算法:

classification and regression tree

只会构建二元分类:避免分支度太多

 

首先是看目标字段平均分布还是偏分布。算Gini,越靠近0.5,是平均。   ID3是算intropy接近。

 

第一层分类树:然后算各类道路距离Gini  index,越小越好,因为与主Gini越远。

 

砍树:由验证数据来决定是否砍树,看错误率。从下往上砍,看错误率有没有上一级的错误率大,大就砍掉。

 

连续型:gini最小的。最小的就是切点‘

CHAID属性 选择方法:卡方统计量:必须都是类别型数据。 卡方值越大,代表该字段与目标字段关系越密切。

根据p值确定树是否往下长。卡方越大,选择它来作为第一个’

 

预测: 直接(分类树)

间接预测(分类规则与优化)

分类树与分类有差异

[展开全文]

分类树的属性选择

字段选择(用ID3  C4.5算法去选择)

 

ID3算法

目标字段:确定平均分布还是 偏分布

两类结果的目标字段的entryny:I(s1,s2)越接近1.代表平均分布

选择其他字段:越重要的字段,entryny下降的越大,正确率也就 越高。可以根据Entry推测出先选哪个字段来分枝。

ID3算法的缺点

无法处理数值型字段,无法处理空值,它不会砍树

 

C4.5:获利比率Gain R:改善分支度越高就好的错误认知。(information value),分支度度越高 ,获利比例低

处理连续型变量

处理连续型;离散。找到GR最大的点。

 

分类树砍树:

1.修剪法

2.盆栽法

C4.5的砍树方法;评估展开的错误率,和收起来的错误率。算法非常复杂

 

 

[展开全文]

决策树:  分类树 和回归树..

分类:要有ID吗,目标字段 必须是 类别字段。输入字段不必是这样

回归:目标字段必须是数值字段。

训练阶段

测试阶段: 命中率,捕捉率,F值

分类树的种类:字段选择,选择正确率会提高的字段

 

砍树:砍掉末端枝条,因为希望测试数据的正确率比较高。末端样本少,代表性不高。避免过度拟合

[展开全文]

授课教师

统计学博士/加州大学伯克利分校
课程顾问

课程特色

视频(6)
下载资料(1)
作业(1)