10人加入学习
(0人评价)
10 支持向量机

支持向量机祭出算法

价格 ¥ 699.00
该课程属于 CDA A + 数据分析师-第八期 请加入后再学习

1. 100多个字段挑选、

一、数据前处理:

   1.数据清洗:错误值(变为空值)、离群值(工资超高,用盖帽法)、空值(平均值)。

先做数据质量报告,不同值个数(小于5个就视为类别型数据,特例:KNN:性别编码成0和1既可以算数值也可以是类别)小孩子的不同值的个数就4个,可以在贝式网络可以视为类别。数据的比例。平均值,离群值等等。

不同值个数太多的:类别的  如职业代码200多个, 全是空值的   可以优先排除。3

空字段要把它设为NA.

    2.字段扩充; 外部数据

  3数据编码:类别行  神经网络里面要摊平

   数据转换:贝式分类要将数据离散化

                  数据一般化(地区合并在一起,将几个地区变成一个地区)

  数据精简:数据量太多,记录精简(抽样),用小量数据建模,大量本数据测试

  字段精简:挑选字段。

 

tree不可以设置CP剪枝。 逻辑回归family=“binomial”二元分类

c5.0  不用验证数据集。验证数据集用来砍树cart。

许多为0的数据,先换成空值,再做空值填补,不能直接加1。

 

过拟合:训练很好,测试很差

   

[展开全文]

当线性不可分割问题:

 法一:容忍些许错误

法二:将线性SVM延伸为非线性SVM,非线性转换,三种转换方式,精通一种

 

S型函数:等同于BP神经网络

高斯RBF:等同于RBF神经网络

线性数值预测:线性回归

非线性函数:多项式函数

[展开全文]

决策边界

 

二元线性D/非线性SVM分类方法

1.S函数转换 2.多项式坐标转换

3.RPF神经网络转换

 

利用支持向量作为建构分割超平面的最重要数据

先挑支持向量,然后再找边界

用支持向量建构模型,就是找出最大边界的超平面、

 

[展开全文]

将线性不可分的  变为可分问题:

    降低坐标维度,变成两类

[展开全文]