数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式;这些模式隐藏或记录在大型数据库、数据仓库、web、其他大量信息库或数据流中。
简言之是从大量数据(大型数据集)中以非平凡的方法发现有用的知识。
常见的数据类型
数据类型 | 数据结构 | 特征 | 例子 |
流 | 流数据(瞬态数据) | 1、海量甚至可能无限 2、动态变化 3、以固定的次序流进和流出 4、只允许一遍或少数几遍扫描 5、要求快速(通常是实时的)响应时间 | 如视频监控和探测器数据。其中数据像流一样流进留出 |
序列 | 序列数据 | ||
图 | 图结构数据 | ||
时间序列 | 社会网络数据 | 如历史记录或股票交易数据 | |
地理空间 | 多重关系数据 | 地图 | |
音频 | |||
图像或者视频 |
如果有数据库系统、统计学和机器学习的背景知识能够更好的理解数据挖掘。