山有木兮:Python特征工程极简入门
前面几节的内容,为大家入门数据分析奠定了一定的基础,《Python统计学极简入门》帮你解释了如何从统计的角度来刻画数据,《SQL数据分析极简入门》帮你从数据库提取业务需要的数据、《Python数据分析极简入门》帮你如何用Pandas快速处理数据。
接下来的内容,我们往机器学习领域延伸一下,按照一贯的“MPV(最小可行化产品)”思路,先学机器学习的重中之重————特征工程。在机器学习方法的的实施流程里面,我们拿到了原始数据,做了各种数据清洗后,就需要掌握特征工程的知识,以便于更好地服务于后面的机器学习模型。
众所周知,关于数据与特征,业界广为流传着两句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限”、“garbage in,garbage out”。前者从机器学习的角度,较为严谨地指出,数据与特征的重要性要大于模型和算法;后者以近似戏谑般地表达了数据的重要性。
但是市面上关于特征工程的书,却只有寥寥几本 《特征工程入门与实践》、《精通特征工程》、《数据准备及特征工程》不仅数量少,而且里面的方法大部分也都是大家耳熟能详的内容:缺失值填补、归一化、one-hot,只看这些内容对于日常做特征的小伙伴们肯定是意犹未尽,总想着有没有更全面一些的内容,这个系列就尝试着给大家梳理一下这部分内容。
为了使得内容更聚焦一些,我们本次暂不涉及文本及图像特征,如有需要后续会单独写两个教程来总结。本次教程结构如下:
扫码获取CDA教材,累计已有10万+在读~
山有木兮:Python、R、Julia编程极简入门
19.00
山有木兮:统计学极简入门
0.00
山有木兮:SQL数据分析极简入门
0.00
山有木兮:Python数据分析极简入门
0.00 起
山有木兮:Julia数据分析极简入门
0.00
紫色沙:Excel数据分析常用的50个函数
0.00