10人加入学习
(0人评价)
07 决策树算法模型

分而治之的算法模型-决策树

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

分类树的属性选择

字段选择(用ID3  C4.5算法去选择)

 

ID3算法

目标字段:确定平均分布还是 偏分布

两类结果的目标字段的entryny:I(s1,s2)越接近1.代表平均分布

选择其他字段:越重要的字段,entryny下降的越大,正确率也就 越高。可以根据Entry推测出先选哪个字段来分枝。

ID3算法的缺点

无法处理数值型字段,无法处理空值,它不会砍树

 

C4.5:获利比率Gain R:改善分支度越高就好的错误认知。(information value),分支度度越高 ,获利比例低

处理连续型变量

处理连续型;离散。找到GR最大的点。

 

分类树砍树:

1.修剪法

2.盆栽法

C4.5的砍树方法;评估展开的错误率,和收起来的错误率。算法非常复杂

 

 

[展开全文]

授课教师

统计学博士/加州大学伯克利分校
课程顾问

课程特色

视频(6)
下载资料(1)
作业(1)