Python是公认的目前数据科学和机学习领域最受欢迎的编程软件之一。而支持Python能够火热的主要原因就是它强大易用的标准库,它们可以帮助你完美地解决几乎所有数据科学领域的问题。
提到使用Python进行数据分析,就不得不提到Pandas。
我们通常讲使用Python进行数据分析核心流程分成以上四个阶段,即字段选择(Data Selection)、数据清洗(Data Manipulation)、数据探索与可视化(Data Visualization)、建模分析(Modeling)。
Pandas通常是用于数据挖掘和清理(Data Manipulation)阶段,也就是在数据采集和存储(data capturing and storage)和数据建模和预测(data modeling and predicting)之间的中间工具,它在数据科学中起到了关键作用。