一直想写点Python的笔记了,今天就闲着无聊随便抄点,(*^__^*) 嘻嘻……
--------------------------------------------------------------------------------------
数据分析的几大任务:
搜集:与外界进行交互,读写各种各样的文件格式和数据库
准备:对数据进行清理、休整、整合、规范化、重塑、切片切块、变形等处理以便进行分析、
建模和计算:将数据跟统计模型、机器学习算法或其它计算工具联系起来、
展示:创建交互式的或静态的图片或文字
数据:
- 多维数组(矩阵)
- 表格型数据,其中各列可能是不同的类型
- 通过关键列(SQL中的主键和外键)相互联系的多个表
- 间隔平均或不平均的时间序列
一般我们建模我们都将数据进行结构化,以便我们更进一步分析和建模。如果实在不行可以将数据集中的特征提取为结构化的形式。(一组新闻文章可以处理为一张词频表,就可以下一步的情感分析)
重要的Python库
- NumPy:科学计算基础包
- 快速高效的多维数组对象
- 用于对数组执行元素级计算以及直接对数组执行数学运算的函数
- 用于读写硬盘上基于数组的数据集的工具
- 线性代数运算,傅里叶变换,以及随机数生成
- 用于将C++,C,Fortran代码集成到Python的工具
- pandas:提供了快速便捷地处理结构化数据的大量数据结构和函数。pandas同时兼顾NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。他提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
- matplotlib:绘制数据图表
- IPython:Python科学计算标准工具集的组成部分
- SciPy:专门解决科学计算中各种标准问题域的包集合
引入惯例
import numpy as np import matplotlib.plot as plt import pandas as pd