【算法剖析】寻找两个已序数组中的第k大元素

1、问题描述

　　给定两个数组A与B，其大小分别为m、n，假定它们都是已按照增序排序的数组，我们用尽可能快的方法去求两个数组合并后第k大的元素，其中，1le kle(m+n)。例如，对于数组A=[1,3,5,7,9]，B=[2,4,6,8]。我们记第k大的数为max_{k-th}，则k=4时，max_{4-th}=4。这是因为排序之后的数组A+B=[1,2,3,4,5,6,7,8,9]，第4大的数是4。我们针对这一个问题进行探讨。

2、算法一

　　第一眼看到这个题的时候，我们能够很快地想出来最基本的一种解法：对数组A和B进行合并，然后求出其第k大的数，即找到答案。合并的过程，我们可以参考归并排序的合并子数组的过程，时间复杂度为O(m+n)。下面给出算法：

int findKthMaxNumOfArrays(int *a,int m,int *b,int n,int k)
{
    int *p=a;
    int *q=b;
    int i=0;
    int j=0;
    int cur=0;
    while(i<m&&j<n)
    {
        if(a[i]<b[j])
        {
            cur++;
            if(cur==k) return a[i];
            i++;
        }
        else 
        {
            cur++;
            if(cur==k) return b[j];
            j++;
        }
    }
    while(i<m)
    {
        cur++;
        if(cur==k) return a[i];
        i++;
    }
    while(j<n)
    {
        cur++;
        if(cur==k) return b[j];
        j++;
    }
}

View Code

3、算法二

　　实际上算法一的时间复杂度已经是线性的了。可是，是否存在更快的算法能够完成这项任务呢？答案是肯定的，时间复杂度可以缩短到O(log(m+n))时间内。在这种算法中，二分的思想十分重要。我们将数组A分为两半，前一部分的大小为left lfloor frac{m}{2} ight floor，后一部分为m- left lfloor frac{m}{2} ight floor；数组B同时分为这样两部分，第一部分的大小为left lfloor frac{n}{2} ight floor，第二部分的大小为n- left lfloor frac{n}{2} ight floor。如下图所示：

通过a_{frac{m}{2}}与b_{frac{n}{2}}，我们将每个数组分为2部分，分别记为A1、A2和B1、B2。假定b_{frac{n}{2}} ge a_{frac{m}{2}}，如果不是，我们只需要交换A、B两个数组即可。接下来，我们看第k大的数落在了哪个区间里面，令t=a_{frac{m}{2}}+b_{frac{n}{2}}+1，这个t实际上是包含了A1，a_{frac{m}{2}}，B1。如果kle t时，则说明max_{k-th}肯定不在B2里面，这是由于：B2中的所有数ge b_{frac{n}{2}}，而b_{frac{n}{2}} ge A1,B1中的所有数与a_{frac{m}{2}}，而这部分数总共有t个，说明b_{frac{n}{2}}起码是第t+1个，若max_{k-th}出现在B2中，则说明kge t+1，与假设矛盾。我们可以得出该结论。因此，在判断之后，我们可以剔除数组B的B2部分，然后再在新数组中寻找；另外，如果kge t，则说明max_{k-th}肯定不在A1部分，这部分的证明同上一个证明相同，不再赘述。同样地，在判断之后，我们可以剔除数组A的A1部分，然后再在新数组中寻找。基于这样一种思想，我们每次迭代，都删除了其中一个数组中一半的元素，时间复杂度大约可认为是O(log(m+n))。

　　在实现的时候，我们需要特别注意边界条件，详细的代码如下：

int findKthMaxNumOfArrays(int *A, int m, int *B, int n, int k)
{
        if(m == 0)return B[k-1];
        if(n == 0)return A[k-1];
        int i = m>>1, j = n>>1, *p, *q, t;
        if(A[i] <= B[j])p = A, q = B;
        else p = B, q = A, swap(i, j), swap(m, n);
        t = i + j + 1;
        if(t >= k)return findKthMaxNumOfArrays(p, m, q, j, k);
        else if(t < k)return findKthMaxNumOfArrays(p+i+1, m-i-1, q, n, k-i-1);
}

算法二

4、扩展问题

　　通过算法二，我们很容易地解决一个类似的问题：求两个已序数组A,B的中位数。所谓的中位数，对于一个有n个元素的已序数组，如果n是奇数，则中位数是第frac{n+1}{2}个元素的值；如果n是偶数，则它的中位数是第frac{n}{2}与第frac{n}{2}+1数的平均值。对于m+n为奇数，则利用算法二求第frac{n+m+1}{2}个元素的值即可，对于m+n为偶数，利用算法二求第frac{m+n}{2}个与第frac{m+n}{2}+1个元素的值，求其平均值即可。

　　对于这个问题，在LeetCode中有另外一种解法，但是阅读后发现其需要处理的个别case太多，相比而言没有本文所介绍的算法简洁。如果想要了解，给出链接：http://leetcode.com/2011/03/median-of-two-sorted-arrays.html。

相关阅读:
Mysql User表权限字段说明全介绍
MySQL Daemon failed to start.
Maven 手动添加 JAR 包到本地仓库
linux下mysql的root密码忘记解决方
java操作excel文件
Spring定时器使用和配置
poi生成excel文件中文乱码问题
mysql show processlist分析
Could not publish server configuration for Tomcat v6.0 Server at localhost
mysql中通过my.cnf设置默认字符集utf8

原文地址：https://www.cnblogs.com/XjChenny/p/3161592.html