- 机器学习的基本概念
获取数据-获取任务-根据数据和算法进行学习-模型评估
1.获取数据
数据决定了机器学习结果的上限,而算法只是尽可能的逼近上限。
及时性、准确性、一致性
分布式机器学习系统
2.获取一个任务
划归其中的某类问题:分类、回归、
3.根据数据和算法进行学习
3.1.数据清洗
【缺失值处理、异常值检测、重复值检测】
数据预处理:保证数据能正常传入模型中学习。
归一化、标准化、连续数值型变量分箱、有序分类变量One-Hot编码、字符型变量数值化等。
特征工程:从原始数据中特征构建、特征提取、特征选择。特征工程、
4.模型评估
模型效果
运行速度
可解释性:再解释性需求很强的领域,我们就需要可解释的算法
服务于业务