10 支持向量机 - CDA网校 - 100000+数据分析师首选，专注于数字化人才教育！

1. 100多个字段挑选、

一、数据前处理：

1.数据清洗：错误值（变为空值）、离群值（工资超高，用盖帽法）、空值（平均值）。

先做数据质量报告，不同值个数（小于5个就视为类别型数据，特例：KNN：性别编码成0和1既可以算数值也可以是类别）小孩子的不同值的个数就4个，可以在贝式网络可以视为类别。数据的比例。平均值，离群值等等。

不同值个数太多的：类别的如职业代码200多个，全是空值的可以优先排除。3

空字段要把它设为NA.

2.字段扩充; 外部数据

3数据编码：类别行神经网络里面要摊平

数据转换：贝式分类要将数据离散化

数据一般化（地区合并在一起，将几个地区变成一个地区）

数据精简：数据量太多，记录精简（抽样），用小量数据建模，大量本数据测试

字段精简：挑选字段。

tree不可以设置CP剪枝。逻辑回归family=“binomial”二元分类

c5.0 不用验证数据集。验证数据集用来砍树cart。

许多为0的数据，先换成空值，再做空值填补，不能直接加1。

过拟合：训练很好，测试很差