转随机数问题

转随机数问题
随机数问题

分类： Programming Pearls Data Structure & Algorithm Offer on the way2013-08-21 22:51 775人阅读评论(1) 收藏举报

目录(?)[+]
最初问题：从n个数中随机选择m个数(0<=m<=n)。

为了便于描述，可以将该问题抽象为：从0-n-1这n个数中随机选择m个数。计算机能够提供的随机数都是伪随机的，我们假设计算机提供的伪随机数为真正的随机。

原创文章，转载请注明出处：http://blog.csdn.net/fastsort/article/details/10162871

0、产生一个随机数

系统(c/c++)提供的rand函数只有15位，如果不满足要求，需要自己扩展，30位的随机函数如下：
[cpp] view plain copy print ?

/** @brief 返回一个30bit的随机数

** @note   系统自带的rand只有15bit

*/

int     BigRand()

{

    static  bool    flag=false;

    if(flag==false)

    {

        srand(time(0));

        flag = true;

    }

    return  (rand()<<15)+rand();

}
1、最简单的解法

每次产生一个0-n-1之间的随机数，放入一个集合中，直到集合的大小为m。C++的STL中有set，比较方便：
[cpp] view plain copy print ?

void    GetRandNum_set(int m,int n)

{

    cout<<__FUNCTION__<<": ";

    set<int>    s;

    while(signed(s.size())<m)

    {

        s.insert(RandInt(0,n-1));

    }

    set<int>::iterator    i=s.begin();

    while(i!=s.end())

        cout<<*i++<<" ";

    cout<<endl;

}
上面的代码工作没有问题，但是当m接近n且很大时，最后几个数的产生将会很困难。因为会生成大量的重复的数。
如何不产生重复的数呢？

2、最多n次的解法

假设当前剩余m个数要选，

从0开始到n-1这n个数，以m/n的概率选中选中0：总共n个数，要选出m个；

对于1：如果选中0，则以(m-1)/(n-1)的概率选择1（总共n-1个，要选m-1个）；如果没选中，则以m/(n-1)的概率选（总共n-1个，要选m个）；

……

对于i：总共还剩下n-i个，还需要选m个，那么选中的概率就是m/(n-i)。

没选中一个，剩余要选的数就减少一个。

因此代码如下：
[cpp] view plain copy print ?

/** @brief 在[0-n)中随机的选择m个不同的数

**         并按序输出

*/

void    GetRandNumSorted(int m,int n)

{

    cout<<__FUNCTION__<<": ";

    if(m<0 || m>=n)  return;

    for(int i=0; m!=0 && i<n; i++)

    {

        if(BigRand()%(n-i)<m)

        {

            cout<<i<<" ";

            m--;

        }

    }

    cout<<endl;

}
显然，这时输出是从小到大按序选择的。
其中：if(BigRand()%(n-i)<m) 的概率为：m/(n-i)。
可以分析，每个数选中的概率都是m/n：

数选中概率

0： m/n

1: m/n * (m-1)/(n-1) + (1-m/n) * m/(n-1) =m/n;

2: 好多项相加，这里就不写了。。。

……

3、不按序输出

如果要求不按序输出，有两种解决办法。

一种是将上面的结果保存起来，然后再打乱保存的数组。

还有一种就是直接产生m个随机数。

先看直接产生m个随机数，其实就是先从0-n-1中随机选择一个，作为第一个；然后再从剩下的n-1个数中随机选择一个作为第二个……直到选出第m个。这就是所谓“完美洗牌”或者打乱数组。
[cpp] view plain copy print ?

/** @brief 在[0-n)中随机的选择m个不同的数

**         并随机输出

*/

void    GetRandNum(int m, int n)

{

    cout<<__FUNCTION__<<": ";

    int * p= (int*)malloc(sizeof(int)*n);//!!!

    for(int i=0;i<n;i++)

        p[i] = i;

    ///shuffle p[0...m-1]

    for(int i=0; i<m; i++)

    {

        swap(p[i],p[RandInt(i,n-1)]);

        cout<<p[i]<<" ";

    }

    cout<<endl;

    free(p);

}
这里需要一个函数，能够随机产生一定范围内的数：
[cpp] view plain copy print ?

/** @brief 返回[l,u]之间的一个随机数 **/

int     RandInt(int l, int u)

{

    l = l<u?l:u;

    u = l<u?u:l;

    return  BigRand()%(u-l+1) + l;

}
这种算法的问题是，如果n很大，m很小，对辅助空间的浪费太严重。因为开辟了那么大的空间，实质只用了很少一部分。
另一种就是先按序随机选择m个数，然后再打乱：
[cpp] view plain copy print ?

/** @brief 在[0-n)中随机的选择m个不同的数

**         并随机输出

*/

void    GetRandNum2(int m, int n)

{

    cout<<__FUNCTION__<<": ";

    int * p= (int*)malloc(sizeof(int)*m);

    int tm=m;

    for(int i=0,j=0; m!=0 && i<n; i++)

    {

        if(BigRand()%(n-i)<m)

        {

            p[j++]=i;//cout<<i<<" ";

            m--;

        }

    }

    for(int i=0; i<tm; i++)

    {

        swap(p[i],p[RandInt(i,tm-1)]);

        cout<<p[i]<<" ";

    }

    cout<<endl;

    free(p);

}
4、随机读取文件中的一行

在不知道文件总行数的情况下，随机读取文件中的一行。

最直观的做法就是，先读取一次文件，确定总行数n。然后产生一个1-n的随机数m，再读取第m行。显然这是可行的，但是问题是如果文件很大，平均要遍历文件1.5次。效率很低。

而且如果文件在不算增长，那么这个方法就不行了。

通过上面的算法的启发，其实也可以只读取一次。

首先读取第一行，如果只有一行，就结束了，设为line；

如果有第2行，那么以1/2的概率替换line；这时1、2两行被选中的概率都是1/2.

如果有第3行，那么以1/3的概率替line；则第3行被选中的概率是1/3，1、2两行被选中的概率则都是1/2*2/3=1/3.

……

第i行，以1/i的概率替换line。

直到文件结束。
[cpp] view plain copy print ?

/** @brief 从文件fname中随机读取一行 */

void    GetOneLineRand(const char *fname)

{

    cout<<__FUNCTION__<<": ";

    string line,str_save;

    ifstream ins(fname);

    int cnt=1;

    while(getline(ins,line))

    {

        if(cnt==1)

        {

            str_save = line;

        }

        else

        {

            if(RandInt(1,cnt)==1)///[1,cnt]

                str_save = line;

        }

        cout<<cnt<<" : "<<line<<endl;

        cnt++;

    }

    cout<<"rand line : "<<str_save<<endl;

    ins.close();

}
这里的if(RandInt(1,cnt)==1)里的1，可以是[1,cnt]中任意一个值，概率均为1/cnt。
5、随机读取k行

先去读k行，保存在一个数组中（假设文件至少有k行）；

然后每读取一行，都以k/n的概率替换数组中的任意一行，其中n为当前总共读取的行数。
[cpp] view plain copy print ?

/** @brief 从文件fname中随机读取k行

*/

void    GetRandLines(const char *fname, int k)

{

    cout<<__FUNCTION__<<": ";

    string  * kstr = new string[k], line;

    ifstream ins(fname);

    int cnt=1;

    while(cnt<=k)///先读取前k行

    {

        if(getline(ins,kstr[cnt-1]))   cnt++;

        else    break;///文件没有k行，直接退出

    }

    while(getline(ins,line))

    {

        if(RandInt(1,cnt)<=k)/// p=k/cnt

        {

            swap(kstr[RandInt(1,k)-1],line);///随机替换一行

        }

        cnt++;

    }



    for(int i=0; i<k ;i++)

    {

        cout<<kstr[i]<<endl;

    }

    cout<<endl;

    delete[] kstr;

    ins.close();

}
其他问题请参考《编程珠玑-第12章》。

原创文章，转载请注明出处：http://blog.csdn.net/fastsort/article/details/10162871
相关阅读:
【渗透测试】hydra使用小结
 Git/SQL/正则表达式的在线练习平台
 加密算法的前世今生
 Linux的进程、线程、文件描述符是什么
 一文看懂 session 和 cookie
Linux 文件目录都是什么鬼？
Linux shell 的实用小技巧
 关于 Linux shell 你必须知道的
 我用四个命令概括了 Git 的所有套路
 如何寻找最长回文子串
原文地址：https://www.cnblogs.com/rexzhao/p/4701816.html

转 随机数问题

随机数问题

0、产生一个随机数

1、最简单的解法

2、最多n次的解法

3、不按序输出

4、随机读取文件中的一行

5、随机读取k行

转随机数问题