最近有机会接触到一些数据挖掘的东西.
个人感觉,这项技术一定会有较大的发展前景.
所以借助这篇文章,阐述一下自己对数据挖掘(Data Mining)的看法.
并一步一步地解释数据挖掘技术的概念.
(一)数据挖掘的产生
数据存储技术的发展与应用:
任何技术都必须与应用相结合.数据挖掘的应用是建立在数据存储的基础上的.简单地来说.
在过去的10年里.Internet的广泛应用以及企业的信息管理集成导致了数据存储技术的迅速发展
企业们已经习惯于将过去的纸面工作遗植到计算机上进行.数据库的使用为这项工作提供了基础.
也涌现了一大批优秀的数据库管理系统,类似于Oracle , Sqlserver. DB2 等等..但总的来说,这些数据库
都提供了同一个功能:数据存储.
人们可以自行构件程序来使用和管理这些数据.最初的应用聚集在检索和更新2项上.举个简单的例子:
当我们在cnblogs上提交一份随笔时.文章的实际内容将被运行于服务器端的Web应用程序提交到一个
数据库(一张表)里.
有人希望浏览它时,Web应用程序又会从数据库中将它检索出来.并通过网络将内容发送到浏览者的浏览器上.
我们也可以删除该随笔,数据库会负责将该文章的记录删除掉(或者是更新一个IsDeleted字段)
出现的问题:海量数据和数据坟墓:
海量数据是一个很形象的词汇.
一个大型超市(我确信它应用了销售管理系统)每天能产生多少销售记录?
回答是:上万条.
一年能产生多少数据?
回答是:海量数据.
但是,数据集是否能称作数据坟墓并非以数据的多寡来界定的.
当数据集多到失去意义的时候,便堕落成数据坟墓了.
以大型超市的销售记录为例,检索任何一条销售记录都失去了意义.
这些庞大的销售记录老实地呆在数据库里,10年没人去问候.也不会有任何人有精力去一条条地检索.
单纯地储存他们没有任何好处...也没有为企业带来任何的价值.
因为它实在是太巨大了.
统计.挖掘的雏形:
有人会说:我们面对大量销售记录的时候.当然不会去一条一条地检索,而是形成一张统计报表,提交到销售
经理的办公桌上.销售经理可以从上面查看今年的销售记录,每个季度的销售记录,每月平均销售记录等等.
这些,利用数据库是可以很容易办到的.当然有很多企业也确实这样做了.
大量的企业表示:我们的管理系统能够做到这样,已经足够了,我们很满意.
但是.在竞争如此激烈的经济世界中,有人提出:
储存在数据库中的数据,是否只能提供这些?它们是否蕴涵了更多的知识和规律,我们并没有成功的
发现.
我们的销售经理在决定下一年的销售策略时,往往会研究最近几年的销售额统计.而策略的决定仅仅依靠这些
仍然显得太主观.于是有一种感觉渐渐形成:我们没有充分利用我们以有的数据.
数据挖掘:
是否觉得数据挖掘仍然显得很空乏
一个具体的例子可以说明问题:
在数据挖掘中,有一个非常典型的应用,被称为购物篮分析.
在决定超市下一年货物架摆放方法时,销售经理总是主观地把面包和牛奶放在一块.但货物实际上
是非常多的.除了主观地决定策略,销售经理还希望他们的系统能够通过已有的销售记录给出一些更直观的
提示,甚至是直接形成一张货架摆放图.依据是:顾客通常更习惯于把什么样的货物放在构物车里.
所以,新的系统需要自动地从数据中挖掘出规律和对决策制定有帮助的信息.
这样,数据挖掘便产生了.
经历了:
数据存储技术--->统计--->数据挖掘与决策支持
产生的原动力是企业对"通过历史数据制定决策"的期望.
数据挖掘的定义最后也很容易的归结为:从海量数据中提取有价信息和知识".