数据挖掘(一)-常见库
什么是数据分析与挖掘技术
所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信
息,比如统计出平均数、标准差等信息,数据分析的数据量有时可能不
会太大,而数据挖掘,是指对大量的数据进行分析与挖掘,得到一些未
知的,有价值的信息等,比如从网站的用户或用户行为数据中挖掘出用
户的潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘
密不可分,数据挖掘是数据分析的提升。
数据挖掘过程
1.定义目标
2.获取数据(常用手段有通过爬虫采集或者下载一些统计网站发布的数据)
3.数据探索
4.数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
5.挖掘建模(分类、聚类、关联、预测)
6.模型的评估与发布
相关模块简介
1.numpy 可以高效处理数据、提供数组支持、很多模块都依赖ta,比如pandas.
scipy. matplotib都依赖他 ,所以这个模块是基础。
2.pandas 主要用于进行数据探索和数据分析。
3.matplotlib 作图模块,解决可视化问题。
4.scipy 主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,
比如积分、傅里叶变换、微分方程求解等。
5.statsmodels 这个模块主要用于统计分析
6.Gensim 这个模块主要用于文本挖掘
7.sklearn. keras 前者机器学习, 后者深度学习。
参考文献&博客
https://blog.csdn.net/livan1234/article/details/80851043