761人加入学习
(0人评价)
CDA LEVEL 1认证考试辅导预习视频

难度系数:★★★☆☆ 课程系列:CDA数据分析师 Level Ⅰ 业务数据分析师

价格 ¥ 399.00
该课程属于 CDA LEVEL 1认证考试冲刺培训与模拟 请加入后再学习

时间序列

传统时间序列

现代时间序列

 

 

传统时间序列

通过对预测目标自身时间序列的处理,来研究其变化的趋势。一个时间序列往往是以下几类变化形式的叠加或耦合

 

长期趋势变动:指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势

季节变动:季度或者月度的周期变化

循环变动

不规则变动

 

 

[展开全文]
sulmsara · 2021-04-24 · 时间序列 0

互补

一手数据:

二手数据:

逻辑合理性验证

数据可信度和准确度

[展开全文]

多表查询

横向连接查询

inner join 

例:  select * from t1 inner join t2 on t1.key1=t2.key2;

right join

left join 

 

纵向合并查询

union 

例: select * from t1 union select * from t2;

union all

 

子查询

select * 

from emp 

where sal > (select avg(sal) from emp);

in 

not in 

any

 

 

窗口函数

[展开全文]

MySQL

DBMS数据库管理系统

RDBMS 关系型数据库管理系统

 

数据定义语言

数据操作语言

数据查询语言

数据控制语言

 

[展开全文]

数据结构(二维表)

字段\记录

 

 

[展开全文]

统计推断

假设检验

样本估计整体

假设检验的基本思想:验证性数据分析,强调先验理论在数据分析中的核心地位,从提出假设理论出发,到验证假设的过程提示,数据分心理论的先导作用,所以业务流与假设检验的步骤:

  1. 建立原假设成立,确定业务需求,明确目的;
  2. 确定小概率时间的界值,概率界值在不同行业中通用;
  3. 获取样本,手机或调查数据;
  4. 选择检验的方法,选择具体的统计方法
  5. 确定P值,根据原需求和数据得出结论,需求目的是否得到支持。

 

 

 

 

[展开全文]

1. KNN算法

K-近邻算法(nearest neighbor)

少数服从多数、一点算一票

越相近越相似

2.决策树算法

分治策略的层次结构

根节点(root node)、内部节点internal node、叶节点leafnode/terminal node

3.聚类算法(无监督学习)

根据对业务的的了解

 

 

[展开全文]

    捕捉少数类的艺术-少数类的评估指标

精确度:查准率precision 

召回率recall:敏感度sensitivity、真正率、查全率

F1 score

 

F1 measure在【0,1】之间分布,越接近1越好

 

   机器学习的分类及算法

 

1. 有监督学习:标签、特征、

分类(classification)和回归(regregression)

2. 无监督学习:

不带任何标签的数据

聚类clustering 数据分成不同组别

和降维dimensionality reduction追求用更简单的方式

3. 半监督学习

在数据不完整的情况下使用

4.强化学习 

深度学习框架  试错 奖惩指导行为

 

 

 

 

[展开全文]

交叉验证

模型的泛化能力,包括:

训练误差:模型再训练集上的错分样本比率(用来判断给定问题是不是一个容易学习的问题)

测试误差:模型在测试集上的错分样本比率(反映了对未知数据的预测能力)

如果得到的训练集和测试集的数据没有交集,通常将此预测能力称为泛化能力。

 

训练集、测试集、验证集

K折交叉验证:交叉n次的结果求出的均值,是对模型效果的一个更好的度量

 

模型评估目录

混淆矩阵:有监督学习的分类问题的评估效果

 

 

 

[展开全文]
  • 机器学习的基本概念

获取数据-获取任务-根据数据和算法进行学习-模型评估

1.获取数据

数据决定了机器学习结果的上限,而算法只是尽可能的逼近上限。

及时性、准确性、一致性

 

分布式机器学习系统

2.获取一个任务

划归其中的某类问题:分类、回归、

3.根据数据和算法进行学习

3.1.数据清洗

【缺失值处理、异常值检测、重复值检测】

数据预处理:保证数据能正常传入模型中学习。

归一化、标准化、连续数值型变量分箱、有序分类变量One-Hot编码、字符型变量数值化等。

特征工程:从原始数据中特征构建、特征提取、特征选择。特征工程、

4.模型评估

模型效果

运行速度

可解释性:再解释性需求很强的领域,我们就需要可解释的算法

服务于业务

 

 

 

 

 

 

 

 

 

[展开全文]

描述性统计

名义测量:分类属性

次序测量:量化水平(受教育程度)

连续变量测量

间距测量:

比率测量:

 

分类变量:频次/频数,百分比,累计频次

顺序变量

连续变量 -中心水平

中位数

众数

 

 

 

 

 

 

[展开全文]

中心极限定理

随机事件:

随机变量:

正态分布:

偏态分布:

点估计:

 

[展开全文]

聚类分析

1、层次分类法

1-1.底向上,也叫合并法

字顶向下,也叫分解法

1-2、距离的计算

最短距离法,最长距离法,中间距离法,类平均法,重心法,离差平方和法

2、快速聚类法

3、两步聚类法

4、应用

 

 

[展开全文]

回归分析

 

基本假设

 

[展开全文]

这里老师说,必须关注人力/时间前提下,提高准确性,就采用简单的随机抽样。这里有个疑问,随机抽样不是要以不考虑人力和时间的前提下进行吗?

[展开全文]

查阅了一下资料,从小到大排序情况下,四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)

[展开全文]

授课教师

CDA数据科学研究院Python课程讲师,AI教育项目部数据分析师。
CDA数据分析研究院 MySQL金牌讲师

课程特色

视频(42)
下载资料(1)