CDA LEVEL 1认证考试辅导预习视频 - CDA网校-数据分析师考证学习官方网站

排序：最新笔记
- 最新笔记
- 点赞最多

[展开全文]

93f0eace3b722b2 · 2021-08-27 · 一元线性回归 0

时间序列

传统时间序列

现代时间序列

传统时间序列

通过对预测目标自身时间序列的处理，来研究其变化的趋势。一个时间序列往往是以下几类变化形式的叠加或耦合

长期趋势变动：指时间序列朝着一定的方向持续上升或下降，或停留在某一水平上的倾向，它反映了客观事物的主要变化趋势

季节变动：季度或者月度的周期变化

循环变动

不规则变动

[展开全文]

sulmsara · 2021-04-24 · 时间序列 0

互补

一手数据：

二手数据：

逻辑合理性验证

数据可信度和准确度

[展开全文]

宣荣欢 · 2021-04-21 · 数据采集方法 0

多表查询

横向连接查询

inner join

例: select * from t1 inner join t2 on t1.key1=t2.key2;

right join

left join

纵向合并查询

union

例: select * from t1 union select * from t2;

union all

子查询

select *

from emp

where sal > (select avg(sal) from emp);

not in

any

窗口函数

[展开全文]

宣荣欢 · 2021-04-19 · 2-6 多表查询 0

MySQL

DBMS数据库管理系统

RDBMS 关系型数据库管理系统

数据定义语言

数据操作语言

数据查询语言

数据控制语言

[展开全文]

宣荣欢 · 2021-04-19 · 2-2 MySQL简介 0

数据结构(二维表)

字段\记录

[展开全文]

宣荣欢 · 2021-04-19 · 2-1数据库简介 0

统计推断

假设检验

样本估计整体

假设检验的基本思想：验证性数据分析，强调先验理论在数据分析中的核心地位，从提出假设理论出发，到验证假设的过程提示，数据分心理论的先导作用，所以业务流与假设检验的步骤：

建立原假设成立，确定业务需求，明确目的；
确定小概率时间的界值，概率界值在不同行业中通用；
获取样本，手机或调查数据；
选择检验的方法，选择具体的统计方法
确定P值，根据原需求和数据得出结论，需求目的是否得到支持。

[展开全文]

宣荣欢 · 2021-04-21 · 假设检验 0

１.　KNN算法

K－近邻算法（nearest　neighbor）

少数服从多数、一点算一票

越相近越相似

２.决策树算法

分治策略的层次结构

根节点（root　node）、内部节点internal　node、叶节点leafnode／terminal　node

３.聚类算法（无监督学习）

根据对业务的的了解

[展开全文]

宣荣欢 · 2021-04-19 · 机器学习概念（四） 0

捕捉少数类的艺术-少数类的评估指标

精确度：查准率precision

召回率recall：敏感度sensitivity、真正率、查全率

F1 score

F1 measure在【0，1】之间分布，越接近1越好

机器学习的分类及算法

1. 有监督学习：标签、特征、

分类（classification）和回归（regregression）

2. 无监督学习：

不带任何标签的数据

聚类clustering 数据分成不同组别

和降维dimensionality reduction追求用更简单的方式

3. 半监督学习

在数据不完整的情况下使用

4.强化学习

深度学习框架试错奖惩指导行为

[展开全文]

宣荣欢 · 2021-04-19 · 机器学习概念（三） 0

交叉验证

模型的泛化能力，包括：

训练误差：模型再训练集上的错分样本比率（用来判断给定问题是不是一个容易学习的问题）

测试误差：模型在测试集上的错分样本比率（反映了对未知数据的预测能力)

如果得到的训练集和测试集的数据没有交集，通常将此预测能力称为泛化能力。

训练集、测试集、验证集

K折交叉验证：交叉n次的结果求出的均值，是对模型效果的一个更好的度量

模型评估目录

混淆矩阵：有监督学习的分类问题的评估效果

[展开全文]

宣荣欢 · 2021-04-19 · 机器学习概念（二） 0

机器学习的基本概念

获取数据-获取任务-根据数据和算法进行学习-模型评估

1.获取数据

数据决定了机器学习结果的上限，而算法只是尽可能的逼近上限。

及时性、准确性、一致性

分布式机器学习系统

2.获取一个任务

划归其中的某类问题：分类、回归、

3.根据数据和算法进行学习

3.1.数据清洗

【缺失值处理、异常值检测、重复值检测】

数据预处理：保证数据能正常传入模型中学习。

归一化、标准化、连续数值型变量分箱、有序分类变量One-Hot编码、字符型变量数值化等。

特征工程：从原始数据中特征构建、特征提取、特征选择。特征工程、

4.模型评估

模型效果

运行速度

可解释性：再解释性需求很强的领域，我们就需要可解释的算法

服务于业务

[展开全文]

宣荣欢 · 2021-04-19 · 机器学习概念（一） 0

均值 μ

方差 σ²

[展开全文]

宣荣欢 · 2021-04-16 · 抽样分布例题精讲 0

[展开全文]

宣荣欢 · 2021-04-16 · 描述性统计分析例题精讲 0

描述性统计

名义测量：分类属性

次序测量：量化水平（受教育程度）

连续变量测量

间距测量：

比率测量：

分类变量：频次/频数，百分比，累计频次

顺序变量

连续变量 -中心水平

中位数

众数

[展开全文]

宣荣欢 · 2021-04-16 · 描述性统计分析 0

中心极限定理

随机事件：

随机变量：

正态分布：

偏态分布：

点估计：

[展开全文]

宣荣欢 · 2021-04-16 · 抽样分布及参数估计 0

聚类分析

1、层次分类法

1-1.底向上，也叫合并法

字顶向下，也叫分解法

1-2、距离的计算

最短距离法，最长距离法，中间距离法，类平均法，重心法，离差平方和法

2、快速聚类法

3、两步聚类法

4、应用

[展开全文]

张志科 · 2021-03-27 · 聚类分析 0

回归分析

基本假设

[展开全文]

张志科 · 2021-03-26 · 回归分析 0

这里老师说，必须关注人力/时间前提下，提高准确性，就采用简单的随机抽样。这里有个疑问，随机抽样不是要以不考虑人力和时间的前提下进行吗？

[展开全文]

张竹城 · 2021-03-10 · 数据采集方法 0

查阅了一下资料，从小到大排序情况下，四分位数是指处在25%位置上的数值（称为下四分位数）和处在75%位置上的数值（称为上四分位数）

[展开全文]

张竹城 · 2021-03-06 · 描述性统计分析 0

分号，结束符

[展开全文]

张志科 · 2021-02-09 · 2-3 数据定义 0

CDA数据分析师®考试 LEVEL III 辅导课（2025新版）

31 0

SQL数据分析分享【CDA俱乐部会员分享】

13 0

Python在自动化办公中的应用【CDA俱乐部会员分享】

14 0

数据分析快速提升班（体验课）

79 0

授课教师

彭奕伟

CDA数据科学研究院Python课程讲师，AI教育项目部数据分析师。

柯家媛0806

CDA数据分析研究院 MySQL金牌讲师

课程特色

视频(42)

下载资料(1)

学员动态

悦悦8877 开始学习一元线性回归

悦悦8877 开始学习方差分析

qudedong 完成了机器学习概念（一）

qudedong 开始学习机器学习概念（二）

qudedong 开始学习机器学习概念（一）

授课教师

课程特色

最新学员

学员动态

关于我们

CDA认证

常见问题

开源社区

服务条款