759人加入学习
(0人评价)
CDA LEVEL 1认证考试直播正式课

难度系数:★★☆☆☆ 课程系列:CDA LEVEL 1业务数据分析师

价格 ¥ 980.00
该课程属于 CDA LEVEL 1认证考试冲刺培训与模拟 请加入后再学习
  • 一元线性回归分析:
  • 遗漏重要变量时会出现线性残差就叫内生性(加大样本量)
  • 方差膨胀因子VIF度量线性相关性
  •  
  • 多远线性回归分析:
[展开全文]

时间序列模型

 通过观察过去的特征模式,预测将来的走势

方法:时间序列分解法和趋势外推法(线性模型)

长期时间趋势T;季节性变动S;循环性变动(非季节,周期一年以上)C;不规则变动R

加法模型:T+S+C+R

乘法:T*S*C*R

趋势模型的选择

1.图形识别法

2,差分法

对数据进行修正,使非平稳序列达到平稳序列

平滑预测法

*平稳时间序列预测法 

平稳:序列的均值不随时间的变化而变化,序列方差为0,不随时间变化,协方差只与时间间隔有关,与时间无关

AR 自回归模型:关于PACF P阶截尾

MA移动平均模型:关于ACF q阶

ARMA自动回归移动平均模型(处理平稳性,无趋势)

ARIMA模型:将非平稳型数列变为平稳型再进行处理

平稳性处理:1,对数运算 2,平滑法(移动平均法,指数平均法)3, 差分 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

时间序列模型

 通过观察过去的特征模式,预测将来的走势

方法:时间序列分解法和趋势外推法(线性模型)

长期时间趋势T;季节性变动S;循环性变动(非季节,周期一年以上)C;不规则变动R

加法模型:T+S+C+R

乘法:T*S*C*R

趋势模型的选择

1.图形识别法

2,差分法

对数据进行修正,使非平稳序列达到平稳序列

平滑预测法

*平稳时间序列预测法 

平稳:序列的均值不随时间的变化而变化,序列方差为0,不随时间变化,协方差只与时间间隔有关,与时间无关

AR 自回归模型:关于PACF P阶截尾

MA移动平均模型:关于ACF q阶

ARMA自动回归移动平均模型(处理平稳性,无趋势)

ARIMA模型:将非平稳型数列变为平稳型再进行处理

平稳性处理:1,对数运算 2,平滑法(移动平均法,指数平均法)3, 差分 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]
  • 点估计与
  • 区间估计:中国人的平均身高在160-180之间。95%的置信水平包含了总体均值。临界值1.65一倍-90%,1.96-90%,2.58-99%。
  • 置信水平:1-置信水平为犯错误的概率
  • 估计量的好坏评价标准:1、1无偏性:无数抽样均值的期望和总体均值相等为无偏。2、有效性:标准差越小越有效。3、一致性:随着样本量增大估计量的值越来越接近总体均值,一般可以用大数定律解决一致性问题。
  •  
  •  
  • 点估计:炸药厂平均每天着多少次火?
  • 抽样:
  • 估计量的求法:距估计(几阶导,不考)、最大似然(重要)、贝叶斯、最小二乘(重要)、EM估计(重要)。知道那个用哪个估计。
  •  
  • 最大似然估计:1、写样本的似然函数)总体为离散型:联合发生率=每个样本值概率的乘积,总体为连续型:密度函数连乘。2、取对数:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]
  • 卡方分布:正态分布标准化的平方和为自由度为n-1的卡方分布,多个标准正态分布的平方和服从卡方分布。样本方差=总体方差除以n-1.分布式=样本方差乘以n-1,除以总体方差。
  • 卡方分布用途:分析与方差有关的样本。随着样本量的增大收敛到正态分布。
  • 卡方分布均值为n方差为2n,n为自由度也就是样本数-1。可加性,两个卡方分布均值可加,自由度为n1+n2
  •  
  • t分布:分析所有小样本有关的分布。大样本>(20、30、300)。通过调整压扁,来容纳更多犯错误的可能性,随着自由度增大,严格收敛域标准正态分布。
  •  
  • F分布:两个卡方分布除以自由度之后之比。两个样本方差除以总体方差做除法直接服从F分布。用来对比方差用的。图像类似卡方分布,自由度越大越像标准正态分布。
  •  
  • 样本(放回抽样)均值的分布与中心极限定理:
  • 中心极限定理:从均值为u,方差为c平方的一个任意总体中抽取容量为n的样本,当n足够大时(>30),样本均值的抽样分布近似服从均值为u方差为c方/n的正态分布(n为样本数)。两个样本独立的话,样本和的方差=方差的和。
  •  
  • 样本比例的抽样分布:某个遗传病的比例。
  • 重复抽样:样本比例的数学期望π乘以男性比/非男性比例除以样本量
  • 不重复抽样需要再乘以(N-n)/(N-1)(常用).次为修正系数,当N趋于无穷时,这个比=1。
  •  
  • 两个样本均值之差的抽样分布(如中美两国的人均收入之差)服从正态分布:期望为总体均值之差,方差为各自方差之和。
  • 样本方差的分布:(n-1)s方/c方服从自由度为n-1的卡方分布。
  •  
  • 两个样本均值之比的抽样分布:直接服从自由度为(n1-1,n2-1)的F分布。
  •  
  •  
  • 参数估计(估计量样本的一个函数就是一个估计量与估计出来的具体值如方差均值等估计值)、假设检验。
  • 点估计与区间估计:
  •  

 

  •  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

统计量及其分布:教材推荐:1、统计学第七版21世纪统计学系列教材。

  • 正态分布:密度函数是累计分布函数的一阶导。
  • 标准正态分布:均值为0,方差为1
  • 经验法则:68.27%一倍标准差,95.45两倍,99.73三倍,99.99四倍
  • 卡方分布、t分布、F分布
  •  
  •  
  •  

 

[展开全文]
  • 集中趋势度量
  • 均值的几何意义:这个点到所有距离平方和最小
  • 定距测量,分布图尾巴在左边是左偏分布,均值可能出现在中位数右边,偏度系>0。
  • 偏斜程度大时用中位数度量,偏度大且有明显峰值用众数,对称用平均数
  • 离散程度度量:
  • 分类数据-异众比率,顺序-四分位差,数值型-方差和标准差,相对离散程度-离散系数
  • 样本方差和标准差,总体方差和标准差
  • 标准分数:也就是标准化值,也就是去量纲、统一量纲(除以汇率)。
  • 契比雪夫不等式:1-1/k2,k=2,3,4。至少有75%的数在2倍标准差以内,89%,3、94%,
  • 离散系数:
  • 偏度与峰度。偏度分布=0对称分布,>0右偏分布。风度系数<扁平分布

 

[展开全文]
  1. 数据类型:离散型-连续性,横截面数据-时间序列数据-面板数据,定类型(国籍)-定序性(健康状况)-数值型(时间、金额又分为定距和定比)
  2. 数据的概括性度量:

 集中趋势的度量:分类数据:众数

顺序:中位数和分位数

连续性:平均数,简单平均数1、样本平均数2、总体平均数3、加权平均数4、算术平均数、几何平均数(增长率)取对数运算

平方>=算数》=几何平均数》=调和平均数,a方+b方>=2ab

  1.  

 

[展开全文]

 

  • 插入数据:制定字段名插入insert into 表名(字段名1,,,)values(字段值1、、、)       不指定字段名插入:insert into 表名 values(字段值1、、、)
  • 更新数据:update 表名 set 字段名1=字段值1 where更新条件
  • 删除数据:delete from/truncate 表名 (where 筛选条件)(删除表中数据但表结构还在)

 

  • 数据查询:
  • 全表查询select * from 表名;
  • 查询指定列
  • 别名的设置:
  • 查询不重复的记录:selete distinct 字段名 from 表名;
  • 条件查询:selete 字段名 from 表名 where条件;多条件查询优先级;
  • 空置查询:selete 字段名 from 表名 where 空置字段 is null;
  • 模糊查询:where 字符串字段like 通配符;
  • 百分号通配符
  • 下划线通配符

 

  • 单表查询:select 字段名 from 表名 order by 字段1,,;多字段排序时,先按第一个字段排序,再二三,,
  • asc升序,desc降序
  • 限制查询数量:limite第几行+行数
  • 聚合函数:avg,count,max,min,sum全都忽略空值,只要有一个不是空值都计算
  • 分组函数:    group by 分组字段 having 筛选条件;
  • having是对分组结果进行过滤,where是对数据表进行筛选,而且是在分组和聚合之前筛选行,所以where子句不能包含聚合函数。
  • selete语句书写顺序:selete-from-where-group by-having-order by-limit    执行顺序:from-where-group-having-selete-order by-limit where不能引用聚合函数

 

  • 多表查询:
  • 连接方式:内连接inner join、外连接(左left、右right链接) on 表1key=表2key;
  • 合并查询:selete * from t1 union selete * from t2;
  • uinion去重,union all不去重
  • 截取字符串substring(字符串,第几个,截取几个);
  • 返回字符串str的位置pos起len个字符,mid(str,pos,len)
  • concat合并字符串
  • length字符长度,每个中文字符是两个字节
  • instr('cda','d'),返回2,表示d在cda的第几个
  • left('cda','2')返回cd,right
  • replace('cda数据分析','cda','CDA')用大写替换小写
  • repeat('CDA',3)CDA重复3遍
  • upper,floor向下取整,round四舍五入,rand随机数,year年份,month,day,now,date_format(date,foumat)根据format字符串格式化date值 可用标识符。
  • 时间戳时 间相互转换

 

    

 

 

 

 

 

 

[展开全文]

1、数据库增(creat)删(drop)改查(show)用(use)

2、数据表的增,create table表名(字段名 数据类型 (约束条件)......).

数据类型:int(11),float(10,2),decimal(10,2),char(10),varchar(10),text‘订单详情等’长文本字符串,date 'yyyy-mm-dd',time'hh:mm:ss’,datetime ,timestamp时间戳(时间差“秒”)

约束条件:可以没有。

主键:非空不重复,表级列级约束、非空(not null)、唯一:可空不重复、自增、默认(default)、外键(foreign key)(字段名)references。

删drop table

改:

1】改表名:alter table 原表名 rename新表名

2】改字段名:alter table 表名 change原字段名 新字段名 数据类型 {约束、位置}

3】改字段类型:alter table 表名 modify 、、、、、

4】添加字段:alter table 表名 add 新字段名 数据类型;

5】改字段排列位置:alter table 表名 modify 字段名 数据类型 first/after

6】删除字段:alter table 表名 drop 字段名;

查show table ,desc 表名 查看表结构

[展开全文]

定位空置

选择性粘贴

辅助列

导入提取数据

1、格式变换、删除重复项、用条件格式或高级筛选或辅助列COUNTIF函数标注重复项

2、缺失值处理:补充、删除

3、常用函数

和、平均、取(余)摸、

提取文本(left\mid\right)

countif计数、sumif分组求和

if\and\or

时间组合、周末、提取时间日期、时间获取(now\today)

分段函数嵌套:vlookup函数、indirect间接引用(1、构造名称2、在大分类列进行“数据验证”3、确定大小分类(选择分类“序列”,选用indiret函数))

 

[展开全文]

1、查找--定位--定位空置

2、选择性粘贴,4步

合并单元格、单元格匹配替换、替换颜色、分组(文本和格式包括公式都可替换)

3、视图

冻结首行、拆分

4、辅助列分类排序

原始顺序作用、简单重复发放工资条、隔行设置格式用两个辅助列、mod(分子,2)取余批量分奇偶数、weekday(A2,2)找出周末加班名单、删除空行(查找替换-序列-填充)、

[展开全文]

  数据类型

1

离散型:古典概型描述

 

连续性:几何概型描述

2

横截面数据

 

时序列数据

 

面板数据

3

定类:不可排序、不可计算

定序:可排序不可计数

数值型:定距(加法)零点有意义、定比(乘法)零点无意义

复数型:不可排序,可计算

 

 

数据的概括性度量

集中趋势的度量

分类数据:众数(不唯一)频数

顺序数据:中位数和分位数

数值型数据:平均数

众数、中位数、平均数的比较

 

 

平方>=算数平均数>=几何>=调和

 

 

[展开全文]

1、快捷键CRTL + A 

2、定位到空格

 

3、randbetween(起始值,终止值)

 

4选择性互动

ctrl + c

ctrl + v

ctrl 

v

 

 

替换

ctrl + H

选项-- 单元格替换

 

 

[展开全文]

缺失值处理:缺失值需要手工填入,缺失值可以从本数据源或其它数据源推导出来。可以用平均值、最大值、最小值或更复杂的概率估计代替。

异常值检测及处理:用统计分析的方法识别可能的错误值或异常值。如偏差分析、识别不遵守分布的值,通过常识性规则、业务特定规则。

重复值检测及消除方法:数据中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。合并/清除是消重的基本方法。

[展开全文]

授课教师

课程顾问

课程特色

视频(21)
下载资料(1)