1. 100多个字段挑选、
一、数据前处理:
1.数据清洗:错误值(变为空值)、离群值(工资超高,用盖帽法)、空值(平均值)。
先做数据质量报告,不同值个数(小于5个就视为类别型数据,特例:KNN:性别编码成0和1既可以算数值也可以是类别)小孩子的不同值的个数就4个,可以在贝式网络可以视为类别。数据的比例。平均值,离群值等等。
不同值个数太多的:类别的 如职业代码200多个, 全是空值的 可以优先排除。3
空字段要把它设为NA.
2.字段扩充; 外部数据
3数据编码:类别行 神经网络里面要摊平
数据转换:贝式分类要将数据离散化
数据一般化(地区合并在一起,将几个地区变成一个地区)
数据精简:数据量太多,记录精简(抽样),用小量数据建模,大量本数据测试
字段精简:挑选字段。
tree不可以设置CP剪枝。 逻辑回归family=“binomial”二元分类
c5.0 不用验证数据集。验证数据集用来砍树cart。
许多为0的数据,先换成空值,再做空值填补,不能直接加1。
过拟合:训练很好,测试很差