数据分析与挖掘
学习&实战记录
实战项目1:智取乐食
从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是 数据挖掘。
数据挖掘基础
数据挖掘基本任务
数据挖掘的基本任务包括利用分类预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,提取数据中蕴含的价值。
数据挖掘建模过程
1. 定义挖掘目标
例:针对餐饮行业的数据挖掘应用,可定义如下挖掘目标。
- 实现动态菜品智能推荐。
- 对餐饮客户进行细分,实现精准营销。
- 基于菜品历史销售情况,综合外部因素(节假日、气候、竞争对手等),对菜品销量进行趋势预测。
- 基于餐饮大数据,对潜在顾客口味偏好进行分析,便于及时进行菜式调整。
2. 数据取样
抽取数据的的标准,一是相关性、二是可靠性、三是有效性。
3. 数据探索
当拿到一个样本数据集后,ta是否达到了我们原来设想的要求;样本中有没有什么明显的规律和趋势;有没有从未设想的数据状态;属性之间有什么相关性;ta们可区分成怎样的类别等,这都是要探索的内容。
挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。
4. 数据预处理
由于采样数据中常常包含许多含有噪声、不完整、甚至不一致的数据,对数据挖掘所设计的数据对象必须进行预处理。
数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。
5. 挖掘建模
样本抽取完成后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或智能推荐)选用哪种算法进行模型构建?
这一步是数据挖掘工作的核心环节。针对餐饮行业的数据挖掘应用,挖掘建模主要包括:
- 基于关联规则算法的动态菜品智能推荐
- 基于聚类算法的餐饮客户价值分析
- 基于分类与预测算法的菜品销量预测
以菜品销量为例,模型构建是对菜品历史销量,综合考虑了节假日、气候和竞争对手等采样数据轨迹的概括,ta反应的是采样数据内部结构的一般特征,并于该采样数据的具体结构基本吻合。模型的具体化就是菜品销量预测公式,公式可以产生与观测值有相似结构的输出,这就是预测值。
6. 模型评价
建模过程中会得出一系列分析结果,模型评价的目的之一就是从这些模型中自动找出最好的模型,另外就是要根据业务对模型进行解释和应用。
数据探索
To be filed
数据预处理
To be filed
挖掘建模
To be filed
参考 书籍&论文&博客
《Python数据分析与挖掘实战》张良均 王路等著