数据挖掘的五个误区

数据挖掘的五个误区

数据挖掘的五个误区

许多成功的企业都发现了围绕着数据挖掘而产生的神话确实就是误解。这些企业没有成为这些误区的牺牲品，而是通过使用数据挖掘技术解决复杂的业务问题来增加利润，获取更大的竞争优势。

实际上正是复杂的数据挖掘技术使得乡村地区的Wal-Mart超市连锁店决定在秋季准备大量某种广告邮件。虽然可笑，但Spamouflage-经过巧妙包装的广告邮件已经取得了极大的成功。不单单是一个可爱的想法，Spamouflage帮助Wal-Mart从现有的顾客群中获得了额外的利润，并且也显示了Wal-Mart是多么深刻地理解着他们所服务的人群。

数据挖掘到底是什么？

数据挖掘是一种非常有力的分析工具，它可以帮助企业主管们通过了解顾客的历史行为的信息来预测他们将来的行为。它找到了解开顾客行为秘密的模式。这些发现可被用于创造利润，缩减成本，以及抓住商业机会，获得新的竞争优势。

关于数据挖掘所产生的误解的部分原因是人们并不十分了解它究竟是什么。从最本质上讲，数据挖掘就是一套用于发现和解释详细数据的未知模式的复杂的数学技术。自从80年代中期以来，数据挖掘的应用领域从学术、医药、科学研究领域扩展开来，已被非常有效地应用在零售、银行、电信、保险、旅行和服务行业。

因为数据挖掘被认为是一种分析工具，它经常与在线分析处理（OLAP）相混淆。OLAP是一种有价值的分析技术，它被用于分析业务操作来对已发生的事情做出历史性的回顾。例如，一位市场部经理想要了解为什么某个地区的销售额下滑了。OLAP工具可以帮助他从各个不同的方面提出问题，例如以商店统计的销售额、以产品统计的销售额和一段时间内的销售额。通过从不同的角度观察这些历史数据，他就会分析出对销售额产生影响的因素（商店、产品，或是时间）。

数据挖掘则处理另一类问题。它可被用于预测未来事件，例如，基于促销情况或者哪类顾客最有可能对促销感兴趣来预测下个月的销售额。

一些企业使用数据挖掘的方式消除了关于数据挖掘的5个误区。

误区1：数据挖掘提供了即时的未来预测

数据挖掘既不是水晶球也不是一按按钮就能魔术般出现答案的技术。它是一个多步骤的处理过程，其中包括：定义业务问题，扫描并按条件搜索数据，开发模型，运用获得的知识。典型情况是，企业花费大量时间预处理并且按照条件搜索数据，保证其干净、一致、良好整合，以便于应用他们所需要的商务智能。数据挖掘全部围绕着数据，成功的数据挖掘需要能够准确反映业务的数据。

企业必须懂得，数据挖掘的威力在于：抓住那些能够从本质上被预测或者被描述的特殊的业务难题。其中包括：

顾客分类
预测顾客的购买倾向
监测欺诈
优化供应和发货渠道

理解了这个过程的企业就看到了真正的效果。一家中西部地区的保健供应商识别了高风险病人，并且使用了能够保证护理质量和管理风险的病例管理程序。一家南美电信公司通过分析电话的使用、购买的服务和服务质量的评定等可能导致顾客减少的模式之后，发现了风险并防止了高价值顾客的流失。一家美国的保险公司通过数据挖掘解决方案的时间段来预测并且很快地检测欺诈，然后采取迅速行动来最小化成本。

误区2：数据挖掘对于商务应用程序仍然是不可用的

数据挖掘是一种可用的技术，并且由于他的商业效果受到了很高的评价。这个谎言似乎是那些需要解释为什么他们不能使用这个处理过程，并且在下面这两句话中转来转去的人所编造的。第一句是：“大的数据库不能被有效地挖掘”。第二句是：“数据挖掘不能在数据仓库引擎中完成”。这两句话都曾经是正确的；就像飞机曾经无法离开地面一样。

让我们同时分析这两句话。因为今天的数据库是这样的大，企业都担心数据挖掘项目所需的额外的IT体系结构会带来巨大的成本，以及每个项目的数据处理过程都会消耗太长时间。但是今天的某些数据库使用的并行技术使得数据库内部的挖掘成为可能。通过在数据库内部进行挖掘，企业可以消除数据移动，利用并行处理的性能，最小化数据冗余，以及消除数据挖掘专用的整个新的冗余的数据库的创建及维护成本。

例如，一个包装零售生产企业使用数据挖掘来维护一个顾客忠诚度程序，这个程序可以帮助它的零售伙伴监控促销的效果，并且分析购买者的购物篮。最初这个分析曾经是鼓励它的伙伴促销他们的产品的有效手段。然而随这需要处理的数据量变得越来越大，以致于这个提供给零售伙伴的服务成本变得过于昂贵。虽然这个分析过程是在一个很强大的服务器上面进行的，但是5个分析应用程序仍然用了超过312个小时来处理数据。

在结束这个有价值的服务之前，这家企业尝试了数据库内部的数据挖掘技术。他们将数据载入一个集中的数据仓库，然后将5个分析程序全部转换为一个在数据库中运行的SQL（标准查询语言）程序，利用它的并行处理能力。通过转换为数据库内部的数据挖掘，他们能够将执行时间从用户忠诚度程序的超过312小时缩小到12小时。

误区3：数据挖掘需要单独的、专用的数据库

数据挖掘产品供应商会强调你需要一个昂贵的、专用的数据库、数据中心或者分析服务器来进行数据挖掘，因为需要将数据转换为一种特别的格式来进行有效地处理。这些数据中心不仅采购和维护成本很高，每个单独的数据挖掘项目还需要单独抽取数据，而数据的抽取是很昂贵并且非常费时的。

数据库技术的发展使得现在数据挖掘再也不需要在一个单独的数据中心进行了。实际上，有效的数据挖掘需要一个企业范围的数据仓库，它的全部投资成本也比使用独立的多个数据中心便宜得多了。

原因是这样的：由于企业需在整个企业范围之上实现数据挖掘项目，利用数据挖掘模型的用户数量和其对数据基础设施型都会持续增长。一个先进的企业数据仓库不仅能有效地存储所有的企业数据，同时也消除大多数额外的数据中心或数据仓库的需求，另外这也为数据挖掘项目提供一个理想的基础。这个基础就是一个单一的企业范围的数据仓库，这个数据仓库可以提供一个具有一致性和即时性的顾客视图。并且通过在数据仓库内部合并数据挖掘的外延，企业可以以两种另外的方式缩减成本。第一种方式是，没有必要购买和维护仅为数据挖掘使用的额外的硬件。第二种方式是，企业将为实施数据挖掘项目所需的数据仓库数据导入导出的工作量减少到最低，这已经是公认的极耗费工时和资源的处理过程。

误区4：只有拥有博士学位才可以进行数据挖掘

一些人认为数据挖掘非常复杂，以致必须拥有至少三个博士才可以执行它：一个是统计学或者计量方法专业博士，一个是能够懂得客户的商务博士，一个是计算机专业博士。

实际情况是在成功项目的实施者中根本用不到一个博士。例如，Teradata最近完成了一个南美电信公司的项目，它成功地追踪了顾客行为变化，帮助公司在电信市场开放期间保住了98％的高价值客户。通过协力工作，一个多学科的小组成功地完成了任务。

数据挖掘是一项需要三个专业领域的技术专家共同合作的工作。商务人员必须通过创建一组商业问题来引导项目，解释凸现的模式。具有对数据挖掘技术、统计学和工具的充分了解的分析建模人员构建可靠的模型。IT人员提供对处理过程的深刻观察，理解数据，并提供关键的技术支持。

误区5：数据挖掘是给那些拥有大量客户数据的大公司提供的

一个简单的事实就是，一个公司，无论大小，只要拥有能够精确反映业务或者客户情况的数据，都能在这些数据基础上构建模型，对应重要的业务挑战。公司处理的顾客数据量从来就不是关键。
相关阅读:
hdu2243 考研路茫茫——单词情结【AC自动机】【矩阵快速幂】
poj3376 Finding Palindromes【exKMP】【Trie】
hdu4763 Theme Section【next数组应用】
hdu2609 How many【最小表示法】【Hash】
hdu3374 String Problem【最小表示法】【exKMP】
poj2728 Desert King【最优比率生成树】【Prim】【0/1分数规划】
python装饰器
 python面试题
 salt教程1-理解saltstack
redis慢查询日志
原文地址：https://www.cnblogs.com/amengduo/p/9587069.html