• 转 随机数问题


     

    随机数问题

    分类: Programming Pearls Data Structure & Algorithm Offer on the way
     

    目录(?)[+]

     

    最初问题:从n个数中随机选择m个数(0<=m<=n)。

    为了便于描述,可以将该问题抽象为:从0-n-1这n个数中随机选择m个数。计算机能够提供的随机数都是伪随机的,我们假设计算机提供的伪随机数为真正的随机。

    原创文章,转载请注明出处:http://blog.csdn.net/fastsort/article/details/10162871

    0、产生一个随机数

    系统(c/c++)提供的rand函数只有15位,如果不满足要求,需要自己扩展,30位的随机函数如下:

    1. /** @brief 返回一个30bit的随机数 
    2.  ** @note   系统自带的rand只有15bit 
    3.  */  
    4. int     BigRand()  
    5. {  
    6.     static  bool    flag=false;  
    7.     if(flag==false)  
    8.     {  
    9.         srand(time(0));  
    10.         flag = true;  
    11.     }  
    12.     return  (rand()<<15)+rand();  
    13. }  

    1、最简单的解法

    每次产生一个0-n-1之间的随机数,放入一个集合中,直到集合的大小为m。C++的STL中有set,比较方便:

    1. void    GetRandNum_set(int m,int n)  
    2. {  
    3.     cout<<__FUNCTION__<<": ";  
    4.     set<int>    s;  
    5.     while(signed(s.size())<m)  
    6.     {  
    7.         s.insert(RandInt(0,n-1));  
    8.     }  
    9.     set<int>::iterator    i=s.begin();  
    10.     while(i!=s.end())  
    11.         cout<<*i++<<" ";  
    12.     cout<<endl;  
    13. }  
    上面的代码工作没有问题,但是当m接近n且很大时,最后几个数的产生将会很困难。因为会生成大量的重复的数。

    如何不产生重复的数呢?

    2、最多n次的解法

    假设当前剩余m个数要选,

    从0开始到n-1这n个数,以m/n的概率选中选中0:总共n个数,要选出m个;

    对于1:如果选中0,则以(m-1)/(n-1)的概率选择1(总共n-1个,要选m-1个);如果没选中,则以m/(n-1)的概率选(总共n-1个,要选m个);

    ……

    对于i:总共还剩下n-i个,还需要选m个,那么选中的概率就是m/(n-i)。

    没选中一个,剩余要选的数就减少一个。

    因此代码如下:

    1. /** @brief 在[0-n)中随机的选择m个不同的数 
    2.  **         并按序输出 
    3.  */  
    4. void    GetRandNumSorted(int m,int n)  
    5. {  
    6.     cout<<__FUNCTION__<<": ";  
    7.     if(m<0 || m>=n)  return;  
    8.     for(int i=0; m!=0 && i<n; i++)  
    9.     {  
    10.         if(BigRand()%(n-i)<m)  
    11.         {  
    12.             cout<<i<<" ";  
    13.             m--;  
    14.         }  
    15.     }  
    16.     cout<<endl;  
    17. }  
    显然,这时输出是从小到大按序选择的。

    其中:if(BigRand()%(n-i)<m) 的概率为:m/(n-i)。
    可以分析,每个数选中的概率都是m/n:

    数 选中概率

    0:  m/n

    1: m/n * (m-1)/(n-1)  +  (1-m/n) * m/(n-1) =m/n;

    2:    好多项相加,这里就不写了。。。

    ……

    3、不按序输出

    如果要求不按序输出,有两种解决办法。

    一种是将上面的结果保存起来,然后再打乱保存的数组。

    还有一种就是直接产生m个随机数。

    先看直接产生m个随机数,其实就是先从0-n-1中随机选择一个,作为第一个;然后再从剩下的n-1个数中随机选择一个作为第二个……直到选出第m个。这就是所谓“完美洗牌”或者打乱数组。

    1. /** @brief 在[0-n)中随机的选择m个不同的数 
    2.  **         并随机输出 
    3.  */  
    4. void    GetRandNum(int m, int n)  
    5. {  
    6.     cout<<__FUNCTION__<<": ";  
    7.     int * p= (int*)malloc(sizeof(int)*n);//!!!  
    8.     for(int i=0;i<n;i++)  
    9.         p[i] = i;  
    10.     ///shuffle p[0...m-1]  
    11.     for(int i=0; i<m; i++)  
    12.     {  
    13.         swap(p[i],p[RandInt(i,n-1)]);  
    14.         cout<<p[i]<<" ";  
    15.     }  
    16.     cout<<endl;  
    17.     free(p);  
    18. }  

    这里需要一个函数,能够随机产生一定范围内的数:
    1. /** @brief 返回[l,u]之间的一个随机数 **/  
    2. int     RandInt(int l, int u)  
    3. {  
    4.     l = l<u?l:u;  
    5.     u = l<u?u:l;  
    6.     return  BigRand()%(u-l+1) + l;  
    7. }  

    这种算法的问题是,如果n很大,m很小,对辅助空间的浪费太严重。因为开辟了那么大的空间,实质只用了很少一部分。

    另一种就是先按序随机选择m个数,然后再打乱:

    1. /** @brief 在[0-n)中随机的选择m个不同的数 
    2.  **         并随机输出 
    3.  */  
    4. void    GetRandNum2(int m, int n)  
    5. {  
    6.     cout<<__FUNCTION__<<": ";  
    7.     int * p= (int*)malloc(sizeof(int)*m);  
    8.     int tm=m;  
    9.     for(int i=0,j=0; m!=0 && i<n; i++)  
    10.     {  
    11.         if(BigRand()%(n-i)<m)  
    12.         {  
    13.             p[j++]=i;//cout<<i<<" ";  
    14.             m--;  
    15.         }  
    16.     }  
    17.     for(int i=0; i<tm; i++)  
    18.     {  
    19.         swap(p[i],p[RandInt(i,tm-1)]);  
    20.         cout<<p[i]<<" ";  
    21.     }  
    22.     cout<<endl;  
    23.     free(p);  
    24. }  

    4、随机读取文件中的一行

    在不知道文件总行数的情况下,随机读取文件中的一行。

    最直观的做法就是,先读取一次文件,确定总行数n。然后产生一个1-n的随机数m,再读取第m行。显然这是可行的,但是问题是如果文件很大,平均要遍历文件1.5次。效率很低。

    而且如果文件在不算增长,那么这个方法就不行了。

    通过上面的算法的启发,其实也可以只读取一次。

    首先读取第一行,如果只有一行,就结束了,设为line;

    如果有第2行,那么以1/2的概率替换line;这时1、2两行被选中的概率都是1/2.

    如果有第3行,那么以1/3的概率替line;则第3行被选中的概率是1/3,1、2两行被选中的概率则都是1/2*2/3=1/3.

    ……

    第i行,以1/i的概率替换line。

    直到文件结束。

    1. /** @brief 从文件fname中随机读取一行 */  
    2. void    GetOneLineRand(const char *fname)  
    3. {  
    4.     cout<<__FUNCTION__<<": ";  
    5.     string line,str_save;  
    6.     ifstream ins(fname);  
    7.     int cnt=1;  
    8.     while(getline(ins,line))  
    9.     {  
    10.         if(cnt==1)  
    11.         {  
    12.             str_save = line;  
    13.         }  
    14.         else  
    15.         {  
    16.             if(RandInt(1,cnt)==1)///[1,cnt]  
    17.                 str_save = line;  
    18.         }  
    19.         cout<<cnt<<" : "<<line<<endl;  
    20.         cnt++;  
    21.     }  
    22.     cout<<"rand line : "<<str_save<<endl;  
    23.     ins.close();  
    24. }  
    这里的if(RandInt(1,cnt)==1)里的1,可以是[1,cnt]中任意一个值,概率均为1/cnt。

    5、随机读取k行

    先去读k行,保存在一个数组中(假设文件至少有k行);

    然后每读取一行,都以k/n的概率替换数组中的任意一行,其中n为当前总共读取的行数。

    1. /** @brief 从文件fname中随机读取k行 
    2.  */  
    3. void    GetRandLines(const char *fname, int k)  
    4. {  
    5.     cout<<__FUNCTION__<<": ";  
    6.     string  * kstr = new string[k], line;  
    7.     ifstream ins(fname);  
    8.     int cnt=1;  
    9.     while(cnt<=k)///先读取前k行  
    10.     {  
    11.         if(getline(ins,kstr[cnt-1]))   cnt++;  
    12.         else    break;///文件没有k行,直接退出  
    13.     }  
    14.     while(getline(ins,line))  
    15.     {  
    16.         if(RandInt(1,cnt)<=k)/// p=k/cnt  
    17.         {  
    18.             swap(kstr[RandInt(1,k)-1],line);///随机替换一行  
    19.         }  
    20.         cnt++;  
    21.     }  
    22.   
    23.     for(int i=0; i<k ;i++)  
    24.     {  
    25.         cout<<kstr[i]<<endl;  
    26.     }  
    27.     cout<<endl;  
    28.     delete[] kstr;  
    29.     ins.close();  
    30. }  


    其他问题请参考《编程珠玑-第12章》。

    原创文章,转载请注明出处:http://blog.csdn.net/fastsort/article/details/10162871

  • 相关阅读:
    【渗透测试】hydra使用小结
    Git/SQL/正则表达式的在线练习平台
    加密算法的前世今生
    Linux的进程、线程、文件描述符是什么
    一文看懂 session 和 cookie
    Linux 文件目录都是什么鬼?
    Linux shell 的实用小技巧
    关于 Linux shell 你必须知道的
    我用四个命令概括了 Git 的所有套路
    如何寻找最长回文子串
  • 原文地址:https://www.cnblogs.com/rexzhao/p/4701816.html
Copyright © 2020-2023  润新知