大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用这三个维度的总称。
其中大数据集是指一个决策问题所用到的所有可能的数据,通常数据量大、来源多、类型多样、有价值(4V特性)
大数据技术是指大数据采集、存储、挖掘分析、可视展现(可视化、报表、监控)等技术
大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法。
数据集成是基础,分析是关键,应用是目标
数据->信息->知识->智慧
HDFS :顺序存储 Hbase :随机存储 搜索引擎:
大数据主要应用领域: 精准营销 金融 医疗
大数据应用场景:通过大数据分析获得洞察,并基于洞察进行预测,根据预测结果做出决策
大数据分析:
1)数据采集/治理: 数据完整性 一致性 正确性,数据治理原则:约束输入,规范输出
2)语义引擎:
3)数据挖掘算法: 挖掘流程:商业理解-数据理解-建模-评估
4)预测性分析:
1. 分析过去,不预测未来(关联分析)
2. 分析过去,预测未来(具备监督式学习功能的预测分析)。
5)可视化分析:
洞察:市场洞察 客户洞察 产品洞察 (补充 位置洞察 互联网分析 社交)
客户洞察就是 通过时间(时机) 空间(位置) 和行为偏好三个指标进行分析。
预测: