• 数据离散化处理


    百度百科(离散化):
    离散化,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
    通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
    原数据:1,999,100000,15;处理后:1,3,4,2;
    原数据:{100,200},{20,50000},{1,400};
    处理后:{3,4},{2,6},{1,5};

    用法:
    很多算法的复杂度与数据中的最大值有关,比如树状数组和纯用数组实现的一对一标记。时常会遇到这种情况:数据的范围非常大或者其中含有负数,但数据本身的个数并不是很多(远小于数据范围)。在这种情况下,如果每个数据元素的具体值并不重要,重要的是他们之间的大小关系的话,我们可以先对这些数据进行离散化,使数据中的最大值尽可能小且保证所有数据都是正数。
    例如,有这样一个长为5的序列:102131511,123,9813186,-611,55。其中有非常大的数以及负数,会给许多算法的实现带来困扰,我们可以把这个序列离散化,使它变成这样:5,3,4,1,2。各个元素间的大小关系没有任何改变,但数据的范围一下子就变得很舒服了。

    离散化的原理和实现都很简单。为了确保不出错且尽可能地提高效率,我们希望离散化能实现以下几种功能:1.保证离散化后的数据非负且尽可能的小2.离散化后各数据项之间的大小关系不变,原本相等的也要保持相等。由此,找出数据项在原序列中从小到大排第几就是离散化的关键。
    可以通过下面的方法以O(nlong)的时间复杂度完成离散化,n为序列长度。

    做法:
    对原序列进行排序,使其按升序排列。
    去掉序列中重复的元素。
    此时序列中各位置的值和位置的序号就是离散化的映射方式。
    例如:对于序列105,35,35,79,-7,排序并去重后变为-7,35,79,105,由此就得到了对应关系-7->1, 35->2, 79->3, 105->4。
    代码:

    int n, a[maxn], t[maxn];
    //这里以下标1为序列的起点,一般情况下从0开始也可以
    for(int i = 1;i <= n;i++)
    {
        scanf("%d", &a[i]);
        t[i] = a[i];//t是一个临时数组,用来得到离散化的映射关系
    }
    //下面使用了STL中的sort(排序),unique(去重),lower_bound(查找)函数
    sort(t + 1, t + n + 1);//排序
    int m = unique(t + 1, t + 1 + n) - t - 1;//去重,并获得去重后的长度m
    for(int i = 1;i <= n;i++)
    {
        a[i] = lower_bound(t + 1, t + 1 + m, a[i]) - t;//通过二分查找,快速地把元素和映射对应起来
    }
  • 相关阅读:
    小程序云开发学习笔记
    188.gulp创建任务
    187.gulp介绍和安装
    186.npm使用详解
    185.nvm和node.js环境配置
    171.补充-在模板中添加权限控制
    170.分组-group、permission、user的操作
    内置中间件CommonMiddleware
    Django内置的中间件
    144.中间件的原理和定义方式详解
  • 原文地址:https://www.cnblogs.com/Aamir-Dan/p/11363428.html
Copyright © 2020-2023  润新知