1、分类
检查未知分类或暂时未知分类的数据,其目的是预测数据属于哪一类或将要分到哪一类。分类已知的相似数据用于研究分类规则,然后将这些规则应用于未知分类数据中。
2、预测
预测是指对数值型连续变量的预测,而不是分类变量。
3、关联规则和推荐系统
关联规则或关联性分析是指,在大型数据库的事项中找出一般关联模式,如捆绑销售。
在线推荐系统使用协同过滤算法,这是基于给定的历史购买行为、评级、浏览记录或任何其他可衡量的偏好行为甚至其他用户购买历史的方法。协同过滤在单个用户级别生成“什么与什么一起买”的购买推荐。因此协同过滤在许多推荐系统中使用,旨在向具有广泛偏好的用户提供个性化推荐。
4、预测性分析
预测性分析包括分类、预测、关联规则、协同过滤、模式识别(聚类)等方法。
5、数据缩减和降维
当变量数量有限,以及大量样本数据可以被分到同质组时,数据挖掘算法的性能通常会得到改善。减少变量数目通常被成为“降维”,降维是部署监督学习方法前最常见的初始步骤,旨在提高预测能力、可管理性和可解释性。
6、数据探索和可视化
数据探索的目的是了解数据全貌和检测异常值。通过图表和仪表板创建的数据探索被称为“数据可视化”或“可视化分析”。对于数值变量,可使用直方图、箱线图和散点图来了解其值的分布、检测异常值。对于分类数据,可使用条形图分析。
7、监督学习和无监督学习
监督学习算法是用于分类和预测的算法,数据分类必须是已知的,分类或预测算法中用来“学习”或“训练”预测变量和结果变量之间的关系的数据叫做“训练数据”。一旦算法从训练数据中学习出来,再把该算法应用于结果已知的另一数据样本(验证数据)来查看与其他模型相比有何优势。简单的线性回归是监督算法的一个例子。
无监督学习算法是没有预测或分类结果变量的情况下使用的算法。关联规则、降维方法和聚类都属于无监督学习。