数据挖掘参考:
https://www.zhihu.com/question/22077960
概念
一、大数据分析技术:
1、数据挖掘
2、统计分析
3、模型分析
4、数据清洗
二、人工智能技术:
1、遗传计算法
2、技术智能
3、专家系统
技术支撑:
一、数据获取:爬虫。数据源:结构化数据、非结构化数据。
大数据预处理:抽取、转换、清洗、加载。
二、数据清洗:洗掉不完整的、冗余的信息。
三、数据整理:
打标签。数据整理的过程,也是数据重构。
打标签模式是”符合关键词—打相应标签“的方法
建模、标签、分类、抽取、存储、管理、统计、监控
分析:多源集成、语义模型、数据质量管理、数据融合、关联性分析、数据标准。
================================================================================================
一、数据应用:
数据挖掘:就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。
数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。
数据挖掘是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。
数据挖掘:查询、分析、API、可视化。
数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。
数据管理经历了人工管理、文件系统、[2] 数据库系统三个发展阶段。
二、数据预处理:
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
三、数据整理:
数据分析是一个包含数据检验、数据清洗、数据重构,以及数据建模的过程,目的在于提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
Excel作为常用的分析工具,可以实现基本的分析工作。
沃尔玛经典营销案例:啤酒与尿布
结果呈现方式:图表。列表法、作图法、计算统计、快速傅里叶变换(FFT)、平滑和滤波(Smoothing and Filtering)、基线和峰值分析(Baseline and Peak Analysis)
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
数据来源
1、搜索引擎蜘蛛抓取数据;
2、网站IP、PV等基本数据;
3、网站的HTTP响应时间数据;
4、网站流量来源数据。
“数据建模”定义:数据集+商业目标+算法+优化迭代= 数据建模。
常用建模算法包括相关、聚类、分类(决策树)、时间序列、回归、神经网络等。
数据建模过程:
目标确定、数据获取、数据清洗、数据整理(分析)
http://blog.csdn.net/achuo/article/details/51160456#t14
数据统计,是互联网传媒行业或其他操作流程的数据统计的统称。
用于精准快速的查找与分类。
统计分析方法从根本上说有两大类,一是逻辑思维方法,二是数量关系分析方法。
逻辑思维方法是对于事物的认识要从简单到复杂,从特殊到一般,从偶然到必然,从现象到本质。
数量关系分析方法是运用统计学中论述的方法对社会经济现象的数量表现,包括社会经济现象的规模、水平、速度、结构比例、事物之间的联系进行分析的方法。如对比分析法、平均和变异分析法、综合评价分析法、结构分
析法、平衡分析法、动态分析法、因素分析法、相关分析法等。