leetcode笔记：Find Median from Data Stream

一. 题目描写叙述

Median is the middle value in an ordered integer list. If the size of the list is even, there is no middle value. So the median is the mean of the two middle value.

Examples:

[2,3,4] , the median is 3

[2,3], the median is (2 + 3) / 2 = 2.5

Design a data structure that supports the following two operations:

void addNum(int num) - Add a integer number from the data stream to the data structure.
double findMedian() - Return the median of all elements so far.

For example:

add(1)
add(2)
findMedian() -> 1.5
add(3) 
findMedian() -> 2

二. 题目分析

题目大意是，在一串输入的数据流中寻找中位数。所谓中位数。就是指有序整数列表的中间值。

假设列表的长度为偶数，此时没有中间值。则当中位数就是两个中间值的平均值。

比如：

[2,3,4], 中位数是 3

[2,3], 中位数是 (2 + 3) / 2 = 2.5

设计一种数据结构，支持以下两种操作：

void addNum(int num) // 该函数从数据流向数据结构增加一个整数
double findMedian() // 返回截至眼下全部元素的中位数

该题的经典做法是。维护一个最大堆和一个最小堆。最大堆存的是截至眼下为止较小的那一半数，最小堆存放的是截至眼下为止较大的那一半数。这样中位数仅仅有可能是堆顶或者两个堆顶所相应两个数的平均值。

维护两个堆的技巧在于推断堆顶端的数和新插入的数的大小关系，另外，因为两个堆平分了全部数。因此还须要考虑两者的大小关系。这里我们规定两个堆的大小之差不超过1。先推断堆顶数和新数的大小关系，有以下三种情况：

最小堆堆顶小于新插入的数时。说明新插入的数处在全部数的上半部分；
最大堆堆顶大于新插入的数时，说明新插入的数处在全部数的下半部分；
最小堆堆顶大于新插入的数时，但最大堆堆顶小于新插入的数时，说明新插入的数将处在最小堆堆顶或最大堆堆顶，也就是在中间的位置。

再推断两个堆的大小关系，假设新插入的数属于前两种情况，開始插入目标堆，此时又有两种操作：

若目标堆不大于还有一个堆时，将新数插入目标堆；
若目标堆大于还有一个堆时，将目标堆的堆顶先移动到还有一个堆。再把新数插入目标堆。

假设新插入的数属于第三种情况。即在中间位置。则插入到大小较小的那个堆就可以。

这样，每次新加进来一个数以后。若两个堆一样大，则中位数是两个堆顶的平均值。否则较大的那个堆的堆顶为中位数。

建立两个堆所用的代码比較长，而使用优先队列来实现则简单很多。

priority_queue：优先队列，是一个拥有权值概念的单向队列。在这个队列中，全部元素是按优先级排列的。优先队列有两种。一种是最大优先队列；一种是最小优先队列；每次取自队列的第一个元素各自是优先级最大和优先级最小的元素。

实际使用时，增加头文件："queue.h", "functional.h"

当中”functional.h”定义了优先级。（若要自定义优先级能够不加）关于优先队列的使用可參照：

http://www.cnblogs.com/summerRQ/articles/2470130.html
http://blog.csdn.net/zhang20072844/article/details/10286997

三. 演示样例代码

class MedianFinder 
{
private: 
    priority_queue<int,std::vector<int>, std::greater<int>> q1; // 数据越小，优先级越高
    priority_queue<int> q2; // 数据越大，优先级越高

public:

    void addNum(int num) 
    { 
        if(q2.empty())
        {
            q2.push(num);
            return;
        }
        if(num <= q2.top())
        {
            if(q2.size() <= q1.size()) q2.push(num);
            else
            {
                q1.push(q2.top());
                q2.pop();
                q2.push(num);
            }
        } 
        else
        {
            if(q2.size() <= q1.size())
            {
                if(num <= q1.top()) q2.push(num);
                else
                {
                    q2.push(q1.top());
                    q1.pop();
                    q1.push(num);
                }
            }
            else
            {
                q1.push(num);
            }
        }
    }

    double findMedian() 
    {
        if(q1.size() == q2.size()) return (q1.top() + q2.top()) / 2.0;
        return double(q2.top());
    }
};

// Your MedianFinder object will be instantiated and called as such:
// MedianFinder mf;
// mf.addNum(1);
// mf.findMedian();

四. 小结

又一次认真学了一下优先队列。受益匪浅。

相关阅读:
CMDB资产管理系统开发【day25】:需求分析
python常用运维脚本实例
我的Pycharm，我做主
为什么你总是“半途而废”- 李笑来
函数和常用模块【day06】：模块特殊变量（十四）
使用Python的turtle（海龟）模块画图
第一章：数据结构和算法
网络编程基础【day10】：IO多路复用
函数和常用模块【day04】：内置函数分类总结（十一）
Python基础【day01】：PyChram使用技巧总结（六）

原文地址：https://www.cnblogs.com/cynchanpin/p/7080055.html