• 数据挖掘(二) 认识数据


    要进行数据挖掘,首先我们要知道什么是数据、数据集,有哪些数据类型

    数据集

      在数据库中,我们存储的一个数据库表(table)就是一个数据集,数据表的每一行就是一个数据对象(就是一条信息),数据表的列就是数据的属性(用来解释每一个数据代表什么含义)

    数据(属性)类型

    标称

      标称类型的数据与该数据的名称(就是上文中的数据属性)有关,它的值是一些符号或是事物的名称。数据值代表某种类别、编码或状态,因此标称属性又被看作是分类的,这些数据值不具有有意义的序,在计算机科学中,这些值也被看做是枚举的。在标称属性上,数据运算是没有意义的。

      e.g:头发颜色 = {黑色,棕色,金色,红色,灰色,白色};婚姻状况 = {已婚、未婚、离婚};职业;身份证号;邮政编码

    二进制

      二进制类型的数据也是一种标称数据,只不过它只有0和1两个值。

      e.g:性别 = {0(表示男),1(表示女)},新型冠状病毒肺炎测试 = {0(阴性), 1(阳性)}

    序数

      序数类型的数据,其可能只具有有意义的序或评定(ranking),但是相继值之间的差是未知的,具有先后顺序。(价值观上有一个有意义的顺序(排名),但不知道连续值之间的大小)序数类型的数据可以通过把数值量的值域划分成有限个有序类别,把数值属性离散化而得到。序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值

      e.g:大小 = {小,中,大},等级,排名

    区间标度

      区间标度属性:用一单位长度顺序性度量,值有序(比如温度、日历等),不存在0点,倍数没有意义,比如我们平常通常不说2000年时1000年的2倍

      e.g:年份等

    比率标度

      具有固定零点的数据类型,可以进行数值运算

      e.g:长度、重量等

    小结:

    PS:离散属性 VS 连续属性

    离散属性:有限或无限可数个值,常表示为整数变量,二元属性时离散属性的特例

         e.g:邮政编码,计数

    连续属性:属性值为实数。实践中,实数只能用有限位数字的数度量和表示,两虚属性一般用浮点变量表示

         e.g:温度、高度、重量

  • 相关阅读:
    记账依据
    会计凭证
    用友U8账套的建立
    如何建立一个账套
    tcxtreelist Properties的使用(TcxImageComboBoxProperties)
    前端:JS获取单击按钮单元格所在行的信息
    总结 React 组件的三种写法 及最佳实践
    Vue.js 学习示例
    CSS3初步
    操刀 requirejs,自己动手写一个
  • 原文地址:https://www.cnblogs.com/wsy107316/p/16246880.html
Copyright © 2020-2023  润新知