时间序列
传统时间序列
现代时间序列
传统时间序列
通过对预测目标自身时间序列的处理,来研究其变化的趋势。一个时间序列往往是以下几类变化形式的叠加或耦合
长期趋势变动:指时间序列朝着一定的方向持续上升或下降,或停留在某一水平上的倾向,它反映了客观事物的主要变化趋势
季节变动:季度或者月度的周期变化
循环变动
不规则变动
互补
一手数据:
二手数据:
逻辑合理性验证
数据可信度和准确度
多表查询
横向连接查询
inner join
例: select * from t1 inner join t2 on t1.key1=t2.key2;
right join
left join
纵向合并查询
union
例: select * from t1 union select * from t2;
union all
子查询
select *
from emp
where sal > (select avg(sal) from emp);
in
not in
any
窗口函数
MySQL
DBMS数据库管理系统
RDBMS 关系型数据库管理系统
数据定义语言
数据操作语言
数据查询语言
数据控制语言
数据结构(二维表)
字段\记录
统计推断
假设检验
样本估计整体
假设检验的基本思想:验证性数据分析,强调先验理论在数据分析中的核心地位,从提出假设理论出发,到验证假设的过程提示,数据分心理论的先导作用,所以业务流与假设检验的步骤:
1. KNN算法
K-近邻算法(nearest neighbor)
少数服从多数、一点算一票
越相近越相似
2.决策树算法
分治策略的层次结构
根节点(root node)、内部节点internal node、叶节点leafnode/terminal node
3.聚类算法(无监督学习)
根据对业务的的了解
捕捉少数类的艺术-少数类的评估指标
精确度:查准率precision
召回率recall:敏感度sensitivity、真正率、查全率
F1 score
F1 measure在【0,1】之间分布,越接近1越好
机器学习的分类及算法
1. 有监督学习:标签、特征、
分类(classification)和回归(regregression)
2. 无监督学习:
不带任何标签的数据
聚类clustering 数据分成不同组别
和降维dimensionality reduction追求用更简单的方式
3. 半监督学习
在数据不完整的情况下使用
4.强化学习
深度学习框架 试错 奖惩指导行为
获取数据-获取任务-根据数据和算法进行学习-模型评估
1.获取数据
数据决定了机器学习结果的上限,而算法只是尽可能的逼近上限。
及时性、准确性、一致性
分布式机器学习系统
2.获取一个任务
划归其中的某类问题:分类、回归、
3.根据数据和算法进行学习
3.1.数据清洗
【缺失值处理、异常值检测、重复值检测】
数据预处理:保证数据能正常传入模型中学习。
归一化、标准化、连续数值型变量分箱、有序分类变量One-Hot编码、字符型变量数值化等。
特征工程:从原始数据中特征构建、特征提取、特征选择。特征工程、
4.模型评估
模型效果
运行速度
可解释性:再解释性需求很强的领域,我们就需要可解释的算法
服务于业务
均值 μ
方差 σ²
描述性统计
名义测量:分类属性
次序测量:量化水平(受教育程度)
连续变量测量
间距测量:
比率测量:
分类变量:频次/频数,百分比,累计频次
顺序变量
连续变量 -中心水平
中位数
众数
中心极限定理
随机事件:
随机变量:
正态分布:
偏态分布:
点估计:
聚类分析
1、层次分类法
1-1.底向上,也叫合并法
字顶向下,也叫分解法
1-2、距离的计算
最短距离法,最长距离法,中间距离法,类平均法,重心法,离差平方和法
2、快速聚类法
3、两步聚类法
4、应用
回归分析
基本假设
这里老师说,必须关注人力/时间前提下,提高准确性,就采用简单的随机抽样。这里有个疑问,随机抽样不是要以不考虑人力和时间的前提下进行吗?
查阅了一下资料,从小到大排序情况下,四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)
分号,结束符