• 数据分析与数据挖掘概述


    1.什么是数据分析与数据挖掘技术?

    所谓数据分析,即对已知的数据进行分析,然后提出一些有价值的信息。比如统计出平均数、标准差等信息,数据分析的数据量有可能不会太大。而数据挖掘,是指对大量的数据进行分析和挖掘,得到一些未知的有价值的信息等,比如从网站的用户或用户行为数据中挖掘出潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。

    2.数据分析与挖掘技术能做什么事情?

    数据挖掘技术能够帮助我们更好的发现事物之间的规律。所以,我们可以利用数据挖掘技术实现数据规律的探索,比如发现窃电用户、发觉用户潜在需求、实现信息的个性化推送、发现疾病与症状甚至疾病与药物之间的规律...等。

    3.数据挖掘的流程:

    1.定义数据挖掘目标

    对我们要解决的问题定义一个目标,也就是我们的数据挖掘要解决一个怎样的问题。

    2.获取数据

    常用的手段有通过爬虫采集或者下载一些统计网站发布的数据。

    3.数据探索

    收集到初步的样本数据集后,接下来要考虑的问题是:

    (1) 样本数据集的数量和质量能够满足模型构建的需求?

    (2) 是否出现从未预料的数据状态?

    (3) 其中有没有明显的规律和趋势?

    (4) 各因素之间有什么样的关联性?

    通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。

    数据探索有助于选择合适的预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。

    4.数据预处理

    因为我们获取的数据并不一定是干净的,可能会存在一些污染、缺失等问题,在数据预处理中就需要对数据进行清洗、集中、规范化、精简,使得这些数据能够适合我们做数据建模。

    5.数据建模

    数据建模比较常用的四类算法:分类算法、聚类算法、关联算法、预测算法。

    6.模型评估与发布

     最后对模型进行验证,是否可以达到我们设定的数据挖掘目标,如果能够可靠的解决我们的问题,之后可以进行发布。

  • 相关阅读:
    [CF451E] Devu and Flowers
    [CF1038E] Maximum Matching
    [CF825E] Minimal Labels
    [CCPC2020绵阳L] Lottery
    [CCPC2020绵阳K] Knowledge is Power
    [CCPC2020绵阳J] Joy of Handcraft
    [CCPC2020绵阳G] Game of Cards
    [CCPC2020绵阳D] Defuse the Bombs
    [CF1082E] Increasing Frequency
    [CF301B] Yaroslav and Time
  • 原文地址:https://www.cnblogs.com/wanghuaijun/p/8687902.html
Copyright © 2020-2023  润新知