(原创声明,转载引用需要指明来源)
上一节讲了数据分析师的大量时间都在写sql,把几十上百张表格关联起来,整合成一张宽表。但SQL在复杂统计,数据分析上显得力不从心。SQL设计原理就是从数据库获取数据,整合数据,而并非统计分析数据。SQL只有计数,求平均值,求和,最大值,最小值,分类统计的函数。如果要实现更复杂的统计和数据分析,需要自己写一大段SQL代码,效率并不高,而python语言仅调用一个函数就可完成。
python是目前最热门的编程语言之一。Python 是代表简单主义思想的语言。python使你能够专注于解决问题而不是去搞明白语言本身。python易于学习,易于维护,具有可扩展,可移植等特点。python拥有一个广泛的标准库,可快速适用于各行各业,例如金融,计算机,互联网,物联网,军事,生物,化学等高收入行业。Python在数据分析领域使用频率也非常高,几乎是数据分析师必备的编程语言。
Pandas是Python在数据分析应用中最常用的模块。Pandas是一个快速,强大,灵活且易于使用的开源数据分析和处理工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗和数据绘图功能。
pandas模块知识主要包括生成series,dataframe对象,数据查看,数据选择,缺失值表达和处理,数学运算,数据合并(Merge),数据分组(Grouping),数据重塑(Reshaping),数据透视表(Pivot Tables),时间序列(TimeSeries),类别型(Categoricals),数据绘图和可视化。