- 一元线性回归分析:
- 遗漏重要变量时会出现线性残差就叫内生性(加大样本量)
- 方差膨胀因子VIF度量线性相关性
- 多远线性回归分析:
时间序列模型
通过观察过去的特征模式,预测将来的走势
方法:时间序列分解法和趋势外推法(线性模型)
长期时间趋势T;季节性变动S;循环性变动(非季节,周期一年以上)C;不规则变动R
加法模型:T+S+C+R
乘法:T*S*C*R
趋势模型的选择
1.图形识别法
2,差分法
对数据进行修正,使非平稳序列达到平稳序列
平滑预测法
*平稳时间序列预测法
平稳:序列的均值不随时间的变化而变化,序列方差为0,不随时间变化,协方差只与时间间隔有关,与时间无关
AR 自回归模型:关于PACF P阶截尾
MA移动平均模型:关于ACF q阶
ARMA自动回归移动平均模型(处理平稳性,无趋势)
ARIMA模型:将非平稳型数列变为平稳型再进行处理
平稳性处理:1,对数运算 2,平滑法(移动平均法,指数平均法)3, 差分
时间序列模型
通过观察过去的特征模式,预测将来的走势
方法:时间序列分解法和趋势外推法(线性模型)
长期时间趋势T;季节性变动S;循环性变动(非季节,周期一年以上)C;不规则变动R
加法模型:T+S+C+R
乘法:T*S*C*R
趋势模型的选择
1.图形识别法
2,差分法
对数据进行修正,使非平稳序列达到平稳序列
平滑预测法
*平稳时间序列预测法
平稳:序列的均值不随时间的变化而变化,序列方差为0,不随时间变化,协方差只与时间间隔有关,与时间无关
AR 自回归模型:关于PACF P阶截尾
MA移动平均模型:关于ACF q阶
ARMA自动回归移动平均模型(处理平稳性,无趋势)
ARIMA模型:将非平稳型数列变为平稳型再进行处理
平稳性处理:1,对数运算 2,平滑法(移动平均法,指数平均法)3, 差分
统计量及其分布:教材推荐:1、统计学第七版21世纪统计学系列教材。
集中趋势的度量:分类数据:众数
顺序:中位数和分位数
连续性:平均数,简单平均数1、样本平均数2、总体平均数3、加权平均数4、算术平均数、几何平均数(增长率)取对数运算
平方>=算数》=几何平均数》=调和平均数,a方+b方>=2ab
1、数据库增(creat)删(drop)改查(show)用(use)
2、数据表的增,create table表名(字段名 数据类型 (约束条件)......).
数据类型:int(11),float(10,2),decimal(10,2),char(10),varchar(10),text‘订单详情等’长文本字符串,date 'yyyy-mm-dd',time'hh:mm:ss’,datetime ,timestamp时间戳(时间差“秒”)
约束条件:可以没有。
主键:非空不重复,表级列级约束、非空(not null)、唯一:可空不重复、自增、默认(default)、外键(foreign key)(字段名)references。
删drop table
改:
1】改表名:alter table 原表名 rename新表名
2】改字段名:alter table 表名 change原字段名 新字段名 数据类型 {约束、位置}
3】改字段类型:alter table 表名 modify 、、、、、
4】添加字段:alter table 表名 add 新字段名 数据类型;
5】改字段排列位置:alter table 表名 modify 字段名 数据类型 first/after
6】删除字段:alter table 表名 drop 字段名;
查show table ,desc 表名 查看表结构
定位空置
选择性粘贴
辅助列
导入提取数据
1、格式变换、删除重复项、用条件格式或高级筛选或辅助列COUNTIF函数标注重复项
2、缺失值处理:补充、删除
3、常用函数
和、平均、取(余)摸、
提取文本(left\mid\right)
countif计数、sumif分组求和
if\and\or
时间组合、周末、提取时间日期、时间获取(now\today)
分段函数嵌套:vlookup函数、indirect间接引用(1、构造名称2、在大分类列进行“数据验证”3、确定大小分类(选择分类“序列”,选用indiret函数))
1、查找--定位--定位空置
2、选择性粘贴,4步
合并单元格、单元格匹配替换、替换颜色、分组(文本和格式包括公式都可替换)
3、视图
冻结首行、拆分
4、辅助列分类排序
原始顺序作用、简单重复发放工资条、隔行设置格式用两个辅助列、mod(分子,2)取余批量分奇偶数、weekday(A2,2)找出周末加班名单、删除空行(查找替换-序列-填充)、
数据类型
1
离散型:古典概型描述
连续性:几何概型描述
2
横截面数据
时序列数据
面板数据
3
定类:不可排序、不可计算
定序:可排序不可计数
数值型:定距(加法)零点有意义、定比(乘法)零点无意义
复数型:不可排序,可计算
数据的概括性度量
集中趋势的度量
分类数据:众数(不唯一)频数
顺序数据:中位数和分位数
数值型数据:平均数
众数、中位数、平均数的比较
平方>=算数平均数>=几何>=调和
1、快捷键CRTL + A
2、定位到空格
3、randbetween(起始值,终止值)
4选择性互动
ctrl + c
ctrl + v
ctrl
v
替换
ctrl + H
选项-- 单元格替换
缺失值处理:缺失值需要手工填入,缺失值可以从本数据源或其它数据源推导出来。可以用平均值、最大值、最小值或更复杂的概率估计代替。
异常值检测及处理:用统计分析的方法识别可能的错误值或异常值。如偏差分析、识别不遵守分布的值,通过常识性规则、业务特定规则。
重复值检测及消除方法:数据中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录。合并/清除是消重的基本方法。