• 数据挖掘【3】公开数据与数据挖掘


    不论做数据分析,还是做数据挖掘,最根本的东西就是数据,没有数据,所有的东西都是纸上谈兵、空中楼阁,数据在哪里?

    数据很多时候是掌握在政府部门手里,国家的农业、环境、交通、天气等方方面面的信息都不在个人手里,分散于各个国家部门。目前的现状是很难获取这些信息,打通在一起,从而使这些数据形成了一个个的数据孤岛。现在有越来越明显的一个趋势,把这些数据打开,从封闭的小集团内部,面向社会公开,这就叫公开数据。

    公开数据有两个层面的含义,首先要从法律上公开,允许别人合法的获取数据,提供获取接口,而不能是使用类似爬虫的技术进行抓取,其次,从技术上要容易获取,比如说格式,公开的数据应该使用标准数据格式。

    了解了这么多概念,是时候为数据挖掘下一个定义了:从巨大、不完全、充满噪音的数据中提取有趣、有用、隐藏的模型的自动化过程。

    人类进行数据分析已经上千年了,均值、方差都是在做数据分析,只是到了现在,面对海量的数据,传统方式已经无法应对,必须利用计算机,通过算法来处理这些巨大、不完全、充满噪音的数据,从中提取有趣、有用,并且是隐藏的不为人知的模型,从而为决策提供支持。

    这里需要注意,数据挖掘并不是一个完全自动化的过程,它需要经常与人进行交互:收集数据,挑选属性,进行预处理,解释某些表象。

    再来看看数据挖掘的流程,数据经过预处理成为信息,再经数据挖掘成为知识,通过决策模型最终成为决策支持,需要经历从不同的数据源,进行融合、提取、转换、装载,进入数据仓库,进行不同种类的分析挖掘这样的一个流程。也可以抽象的理解为:定义问题、采集数据、处理数据、数据模型化、解释评价、正负反馈、实施部署这些步骤。

    官网:http://www.lenbor.com
  • 相关阅读:
    Git(一):基础调用
    Vue(一):使用Vue创建项目并发布
    mysql用户与权限
    跨域理解及常用解决方案
    Ajax简单用法
    冒泡排序算法
    委托使用方式
    How to: Add the Analyze Action to List Views 如何:将分析按钮添加到列表视图
    How to:Customize Action Controls 如何:自定义按钮控件
    How to: Customize the New Action's Items List 如何:自定义新按钮的项目列表
  • 原文地址:https://www.cnblogs.com/lenbor/p/13038895.html
Copyright © 2020-2023  润新知