10 支持向量机 - CDA网校 - 100000+数据分析师首选，专注于数字化人才教育！

1. 100多个字段挑选、

一、数据前处理：

1.数据清洗：错误值（变为空值）、离群值（工资超高，用盖帽法）、空值（平均值）。

先做数据质量报告，不同值个数（小于5个就视为类别型数据，特例：KNN：性别编码成0和1既可以算数值也可以是类别）小孩子的不同值的个数就4个，可以在贝式网络可以视为类别。数据的比例。平均值，离群值等等。

不同值个数太多的：类别的如职业代码200多个，全是空值的可以优先排除。3

空字段要把它设为NA.

2.字段扩充; 外部数据

3数据编码：类别行神经网络里面要摊平

数据转换：贝式分类要将数据离散化

数据一般化（地区合并在一起，将几个地区变成一个地区）

数据精简：数据量太多，记录精简（抽样），用小量数据建模，大量本数据测试

字段精简：挑选字段。

tree不可以设置CP剪枝。逻辑回归family=“binomial”二元分类

c5.0 不用验证数据集。验证数据集用来砍树cart。

许多为0的数据，先换成空值，再做空值填补，不能直接加1。

过拟合：训练很好，测试很差

[展开全文]

阿武Anke · 2019-06-15 · R语言答疑-李御玺 0

kernel = 'radia' or 'sigmoid'

[展开全文]

阿武Anke · 2019-06-13 · 4.以R语言进行分类模型建置及算法参数调整 0

当线性不可分割问题：

法一：容忍些许错误

法二：将线性SVM延伸为非线性SVM，非线性转换，三种转换方式，精通一种

S型函数：等同于BP神经网络

高斯RBF:等同于RBF神经网络

线性数值预测：线性回归

非线性函数：多项式函数

[展开全文]

阿武Anke · 2019-06-13 · 3.错误率与最大决策边界_非线性支持向量机及核函数_支持向量机与线性 0

决策边界

二元线性D/非线性SVM分类方法

1.S函数转换 2.多项式坐标转换

3.RPF神经网络转换

利用支持向量作为建构分割超平面的最重要数据

先挑支持向量，然后再找边界

用支持向量建构模型，就是找出最大边界的超平面、

[展开全文]

阿武Anke · 2019-06-13 · 2.支持向量_决策边界_线性支持向量机 0

将线性不可分的变为可分问题：

降低坐标维度，变成两类

[展开全文]

阿武Anke · 2019-06-12 · 1.线性可分与线性不可分_坐标转换 0

授课教师

课程特色

最新学员

学员动态

关于我们

CDA认证

常见问题

开源社区

服务条款