07 决策树算法模型 - CDA网校 - 100000+数据分析师首选，专注于数字化人才教育！

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA竞赛 CDA技术答疑 CDA俱乐部 CDA论坛

关于CDA App下载

10人加入学习

(0人评价)

07 决策树算法模型

分而治之的算法模型-决策树

价格 ¥ 699.00

学习有效期长期有效

扫一扫扫二维码继续学习二维码时效为半小时
分享
已收藏
收藏

该课程属于 CDA A + 数据分析师-第八期请加入后再学习

排序：最新笔记
- 最新笔记
- 点赞最多

cp=0 代表不做砍树动作

minsplit

阿武Anke · 2019-06-03 · 1.以R语言进行分类树模型建置及算法参数调整 0

回归树：

阿武Anke · 2019-06-01 · 1.回归树的归纳学习原理2.回归树的改进-模型树3.回归树的属性选择方法 0

CART分类树算法:

classification and regression tree

只会构建二元分类：避免分支度太多

首先是看目标字段平均分布还是偏分布。算Gini，越靠近0.5，是平均。 ID3是算intropy接近。

第一层分类树：然后算各类道路距离Gini index，越小越好，因为与主Gini越远。

砍树：由验证数据来决定是否砍树，看错误率。从下往上砍，看错误率有没有上一级的错误率大，大就砍掉。

连续型：gini最小的。最小的就是切点‘

CHAID属性选择方法：卡方统计量：必须都是类别型数据。卡方值越大，代表该字段与目标字段关系越密切。

根据p值确定树是否往下长。卡方越大，选择它来作为第一个’

预测：直接（分类树）

间接预测（分类规则与优化）

分类树与分类有差异

阿武Anke · 2019-06-01 · 4.分类树的砍树方法5.分类树与分类规则 0

分类树的属性选择

字段选择（用ID3 C4.5算法去选择）

ID3算法

目标字段：确定平均分布还是偏分布

两类结果的目标字段的entryny：I（s1,s2）越接近1.代表平均分布

选择其他字段：越重要的字段，entryny下降的越大，正确率也就越高。可以根据Entry推测出先选哪个字段来分枝。

ID3算法的缺点

无法处理数值型字段，无法处理空值，它不会砍树

C4.5：获利比率Gain R:改善分支度越高就好的错误认知。（information value），分支度度越高，获利比例低

处理连续型变量

处理连续型；离散。找到GR最大的点。

分类树砍树：

1.修剪法

2.盆栽法

C4.5的砍树方法；评估展开的错误率，和收起来的错误率。算法非常复杂

阿武Anke · 2019-06-01 · 3.分类树的属性选择 0

决策树：分类树和回归树..

分类：要有ID吗，目标字段必须是类别字段。输入字段不必是这样

回归：目标字段必须是数值字段。

训练阶段

测试阶段：命中率，捕捉率，F值

分类树的种类：字段选择，选择正确率会提高的字段

砍树：砍掉末端枝条，因为希望测试数据的正确率比较高。末端样本少，代表性不高。避免过度拟合

阿武Anke · 2019-06-01 · 1. 分类树与回归树_1.分类树的学习及测试阶段_2.分类树的种类及分类树的归纳学习原理 0

CDA数据分析师周末集训营（试听）

CDA数据分析师周末集训营（试听）

10 0

【CDA俱乐部会员分享】用户洞察—助力品牌商业价值提升

【CDA俱乐部会员分享】用户洞察—助力品牌商业价值提升

5 0

Yonghong Desktop Basic 一款免费智能数据分析工具

Yonghong Desktop Basic 一款免费智能数据分析工具

15 0

【CDA俱乐部会员分享】常用分析方法：相关性分析思路

【CDA俱乐部会员分享】常用分析方法：相关性分析思路

25 0

授课教师

熊巍

统计学博士/加州大学伯克利分校

CDA等级班

课程顾问

爱吃糖的小松鼠

若水若谷

课程特色

视频(6)

下载资料(1)

作业(1)

最新学员

学员动态

catcattttt 开始学习 2.以R语言进行回归树模型建置...

catcattttt 开始学习 1.以R语言进行分类树模型建置...

catcattttt 开始学习 1.回归树的归纳学习原理2.回...

catcattttt 开始学习 4.分类树的砍树方法5.分类树...

catcattttt 开始学习 3.分类树的属性选择