761人加入学习
(0人评价)
CDA LEVEL 1认证考试辅导预习视频

难度系数:★★★☆☆ 课程系列:CDA数据分析师 Level Ⅰ 业务数据分析师

价格 ¥ 399.00
该课程属于 CDA LEVEL 1认证考试冲刺培训与模拟 请加入后再学习

1. 随机试验

2. 随机事件

3. 随机变量    

[展开全文]

1. 数据的计量尺度和具体的统计方法相关

名义测量-分类变量:数值谨代表某些分类或属性,不做高低,大小区分。如男女

次序测量-顺序变量:量化水平高于名义测量,具有一定的顺序性。如学历水平

连续变量测量-数值变量 (间距测量、比例测量)

间距测量:量化水平更高,其取值不再是类的编码,而是采用一定单位的实际测量值。可以进行加减运算,但不能进行乘除运算。

比例测量:最高级的测量等级。可以进行加减乘除,其0具有绝对意义

 

2 数据描述

分类变量:检查众数,百分比:

频次/频数、百分比、累积频次与累积百分比(仅对次序变量有意义)

顺序变量:众数,频次,百分比,百分比,累积

连续变量: 中心水平、离散程度、偏度和峰度

注意⚠️:分类变量、顺序变量、连续变量的量化水平是由低到高的,低水平变量的统计量可以用于高水平,反之则不一定

3 连续变量-中心水平:能代表“中心”概念的可选统计量有均值,中位数和众数

众数(数据量较大时有意义):出现次数最多的变量值,众数不是唯一的

中位数:排序后处于中间位置的值

样本量为奇数时,中位数为中间值

样本量为偶数是时,中位数为中间两值的均值,是一个计算值

四分位数:一组数据排序后,处于25%(下四分位数)和75%(上四分位数)位置处的数字

均值-算数平均数:样本平均数、总体平均数。

均值-加权平均数:样本加权平均,总体加权平均

均值-几何平均数:主要用于计算平均增长率,适用于比率数据的平均。

各个中心水平度量的比较:众数和中位数不易收到极端值的影响,平均数容易受到极端值影响。众数和中位数适合在非对称情况下使用。

4. 连续变量-离散程度:离散程度反映中心水平的代表性。

离散程度度量指标:

5. 连续变量-偏度:用来刻画偏态的程度

6. 连续变量-峰度:变量向两边拖尾的情况。正态分布峰度为0

7 统计图形

条形图

盒须图(箱线图):提供中位数,均值,上线分位点的信息

玫瑰图(南丁格尔玫瑰图)

 

[展开全文]

1. 数据分析是一套分析流程,包括业务理解,数据采集,数据清洗,数据探索,数据可视化,数据建模,模型结果可视化,分析结果的业务应用等;它以探索数据内的有用信息为主要途径,以解决业务需求为最终目标。

2. 数据挖掘是一个跨学科的计算机科学分支,是一种计算过程;用人工智能,机器学习,统计学和数据库的交叉方法在相对较大型的数据集中发现模式

3. 数据分析的8个层次

 4.小数据与大数据关系

小数据重抽样,基于样本推断总体

大数据重全体,偏向于机器学习,侧重效率和优化

5. 数据分析的意义

数据分析涉及到公司运营的方方面面,其中客户与市场的数据分析是重点

6. 客户生命周期与数据分析的关系

潜在:发掘潜在客户--如何找到潜在客户

响应:客户获取,初始信用评分,客户价值预测

既得:客户细分,精准营销,行为信用评分,客户保留。。。

流失:流失时间判断,流失类型判断

7. 数据挖掘方法论

CRISP-DM 方法论将数据挖掘项目生命周期分为6个阶段:业务理解,数据理解,数据准备,建模,模型评估和模型发布

 

SEMMA方法论:数据挖掘项目实施的方法论,对CRISP方法论中的数据准备和建模环节进行了拓展。

挖掘阶段的任务

 

 

 

[展开全文]

授课教师

CDA数据科学研究院Python课程讲师,AI教育项目部数据分析师。
CDA数据分析研究院 MySQL金牌讲师

课程特色

视频(42)
下载资料(1)