xigema=1
xigema=1
确定性的关系
方差分析的三种类型
误差平方和 1.组内平方和
2.组间平方和:4个行业职员之间的误差平方和,既包括随机误差,也包括 系统误差
均方:平方和除以相应的自由度
组间均方与组内均方的比值。
基本假设
1.每个总体都要付出正态分布
2.每个总体的方差必须相同
F>F(9,10) p小于 P的临界值。表明有显著影响
双因素分析:
求行的均值 列的均值 总的均值
有两组假设
总误差平方和
列因素 行因素 随机误差项平方和
方差分析
分析分类型数据对数值型数据有没有影响
如不同的行业的人均收益是否有显著性差别
观察差异的显著性,差异是否足够显著
因素或因子
水平或处理
观察值
总体
样本数据
差异都会有,但要看是否显著。
随机误差:同一水平下,样本观测值的差异。随机因素的影响
系统误差:因素的不同总体的差异。可能是随机性造成的,或者是由于行业本身造成的。
假设检验
1.
假设检验是检验有没有显著差异
原假设是要推翻 的,要拒绝的
备择假设是要证明的
Z分位数: NORM,S,INV(0.025)
T分位数:T.INV(0.975,15) 15为自由度
卡方分位数: 不对称 CHISQ.INV(0.975,15)
F分布的分位数 F.INV(0.975,11,12)
算方差 VAR.S S:样本 VAR.P 总体
方差 SQRT(VAR.S)
同一个样本 匹配前后,是匹配样本
方差比:
样本量的确定
评价估计量的标准
样本的统计量估计总体 总体参数
无偏性:估计量抽样分布的数学期望等于被估计的总体参数。 业务化语言:中心
有效性:两个估计量,标准差越小的越有效。
一致性;:随着样本量的增加,估计量的值越来越接近总体参数。
样本估计总体
总体参数
点估计 区间估计
置信区间(90% 、95、99%)。确信在这个区间里面的程度。
统计量 抽样分布
样本推断整体:如求市场份额
次序统计量
正态分布
N normal distribution
分布函数Fx 是x左侧的概率(面积)
Fx=P(X<x)
excel
方差和标准差 不能用于比较不同变量的离散程度
离散系数:可以消除样本的影响。便于比较离散程度。
V=S/X
偏态和峰态:
偏态系数: >0 。右偏分布
>1或<1 高度偏态
峰态:
异众比率;
四分位差: 用于衡量中位数的代表性
方差和标准差:
到平均数的平均距离
数学性质较差:不可导
样本方差: 分母是n-1
度量方式不同 结果不一样
标准分数 :标准化值,某个值在一组数据中相对位置的度量,判断是否有离群点
Z=X1-X/S
离散系数:
分类数据:如 男女
顺序: 名次 (甲乙丙等)
数值型:营业额
众数可以是 类 也可以 是数
中位数不能用于顺序 数据里面
描述性统计: