首页 / 山有木兮:Python特征工程极简入门
  • 211人
  • 分享
    收藏

山有木兮:Python特征工程极简入门

价格 19.00
学习有效期 60天 (随到随学)

简介

 

前面几节的内容,为大家入门数据分析奠定了一定的基础,《Python统计学极简入门》帮你解释了如何从统计的角度来刻画数据,《SQL数据分析极简入门》帮你从数据库提取业务需要的数据、《Python数据分析极简入门》帮你如何用Pandas快速处理数据。

接下来的内容,我们往机器学习领域延伸一下,按照一贯的“MPV(最小可行化产品)”思路,先学机器学习的重中之重————特征工程。在机器学习方法的的实施流程里面,我们拿到了原始数据,做了各种数据清洗后,就需要掌握特征工程的知识,以便于更好地服务于后面的机器学习模型。

众所周知,关于数据与特征,业界广为流传着两句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限”、“garbage in,garbage out”。前者从机器学习的角度,较为严谨地指出,数据与特征的重要性要大于模型和算法;后者以近似戏谑般地表达了数据的重要性。

但是市面上关于特征工程的书,却只有寥寥几本 《特征工程入门与实践》、《精通特征工程》、《数据准备及特征工程》不仅数量少,而且里面的方法大部分也都是大家耳熟能详的内容:缺失值填补、归一化、one-hot,只看这些内容对于日常做特征的小伙伴们肯定是意犹未尽,总想着有没有更全面一些的内容,这个系列就尝试着给大家梳理一下这部分内容。

为了使得内容更聚焦一些,我们本次暂不涉及文本及图像特征,如有需要后续会单独写两个教程来总结。本次教程结构如下:

  • 时间特征
    • 离散时间
    • 连续时间
  • 空间特征
  • 数值特征
    • 归一化(MinMax Scaling)
    • 标准化(Standardization)
    • 正则化(Normalization)
  • 类别特征
    • 序号编码(Ordinal Encoding)
    • 独热编码(One-Hot Encoding)
    • 二进制编码(Binary Encoding)
    • 标签编码(Label Encoding)
  • 统计及组合特征
    • 统计特征
    • 业务特征
    • 组合特征
  • 特征变换
    • 对数变换
    • 指数变换
    • Box_Cox变换

学习目录

学员评价

暂无评价哦~
授课老师

山有木兮水有鱼

数据分析师

电子版《CDA一级教材》

扫码获取CDA教材,累计已有10万+在读~ 

猜你想学

山有木兮:Python、R、Julia编程极简入门

19.00

山有木兮:统计学极简入门

0.00

山有木兮:SQL数据分析极简入门

0.00

山有木兮:Python数据分析极简入门

0.00

山有木兮:Julia数据分析极简入门

0.00

紫色沙:Excel数据分析常用的50个函数

0.00