10人加入学习
(0人评价)
10 支持向量机

支持向量机祭出算法

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

1. 100多个字段挑选、

一、数据前处理:

   1.数据清洗:错误值(变为空值)、离群值(工资超高,用盖帽法)、空值(平均值)。

先做数据质量报告,不同值个数(小于5个就视为类别型数据,特例:KNN:性别编码成0和1既可以算数值也可以是类别)小孩子的不同值的个数就4个,可以在贝式网络可以视为类别。数据的比例。平均值,离群值等等。

不同值个数太多的:类别的  如职业代码200多个, 全是空值的   可以优先排除。3

空字段要把它设为NA.

    2.字段扩充; 外部数据

  3数据编码:类别行  神经网络里面要摊平

   数据转换:贝式分类要将数据离散化

                  数据一般化(地区合并在一起,将几个地区变成一个地区)

  数据精简:数据量太多,记录精简(抽样),用小量数据建模,大量本数据测试

  字段精简:挑选字段。

 

tree不可以设置CP剪枝。 逻辑回归family=“binomial”二元分类

c5.0  不用验证数据集。验证数据集用来砍树cart。

许多为0的数据,先换成空值,再做空值填补,不能直接加1。

 

过拟合:训练很好,测试很差

   

[展开全文]