统计模型(假设检验)
数据挖掘模型
决策树思想
根决策 决策节 叶决策
ID3算法
信息熵(描述系统的复杂程度,信息量的加权平均)
信息量(底数2)
发生频数高的信息量大(0-1)信息熵越大越混乱
信息增益(引入一个变量对其分类,条件熵越小越好,差是信息增益越大越好)
eg引入亏损状态的分类,谁信息增益大就在哪里开叉
缺点,分类越多信息增益越大
C4.5的算法(可处理非离散数据)
信息增益率
剪枝
CART算法
二分叉,二叉树
C5.0算法(基于booksing算法)
多叉树,采用大数据集
构造多个C4.5
智能解决分类问题
随机森林,SGboost