keywords: 数据挖掘
author: 二卷(2017.03.07)
这章没啥,就是二卷对着书边看边自言自语了一通。
在绪论的开篇,书里提到,数据挖掘也会用于分子生物学,二卷其实就是药学院的,虽然不是研究基因,但是还是好感动啊,我对医药有特殊的感情。
## **
1.什么是数据挖掘
**
书上说的很多,二卷认为数据挖掘是从一堆数据中挖掘出有用的模式,这些数据通常存放在数据库中。在数据挖掘之前会做一些预处理,比如清洗数据、整理数据的存储格式;在这些数据被挖掘后,再进行后处理,得到一些直观有用的信息。
## **
2.数据挖掘要解决的问题
**
就二卷现在研究僧所研究的专业方向来看,数据挖掘并不是万能的,还有很多问题它并不能很好的解决,尤其是生物体内一些微观世界的复杂问题。所以说,数据挖掘还需要解决自身的很多问题,书上有说,但是不是二卷学习的重点,跳过。
## **
3.数据挖掘的起源
**
起源嘛,肯定是现有的技术不足以解决现在的问题,所以需要发展新的技术方法。数据挖掘的学习需要统计学的背景,同时也需要建模方面的知识,还需要IT技术方面的支持。
## **
4.数据挖掘任务
**
可以分为俩大类:**预测任务** 、**描述任务**本书主要讲四种数据挖掘的任务: ### **1)预测建模** 主要有分类(用于离散的数据)和回归(用于连续的数据) ### **2)关联分析** ### **3)聚类分析** ### **4)异常检测**
(从字面含义就可以大概知道这四种任务是做什么的,但是我认为为了完成一个好的数据挖掘,可能需要交叉使用这四种方法。还有就是数据挖掘有时候得到的模型并不一定是完全准确的,但是已经尽可能的贴近现实情况)