• 堆排序


    堆排序

    堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。可以利用数组的特点快速定位指定索引的元素。堆分为大根堆和小根堆,是完全二叉树。大根堆的要求是每个节点的值都不大于其父节点的值,即A[PARENT[i]] >= A[i]。在数组的非降序排序中,需要使用的就是大根堆,因为根据大根堆的要求可知,最大的值一定在堆顶。1991年的计算机先驱奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德(Robert W.Floyd)和威廉姆斯(J.Williams)在1964年共同发明了著名的堆排序算法( Heap Sort )

    堆排序演示

    这里写图片描述

    分析

    在分析之前我们先介绍下二叉树和堆得一些性质(特点)。

    二叉树

    • 性质1:一棵非空二叉树的第i层上最多有(2^{(i-1)})个结点,(i>=1)。
    • 性质2:一棵深度为k的二叉树中,最多具有(2^k-1)个结点,最少有k个结点。
    • 性质3:对于一棵非空的二叉树,度为0的结点(即叶子结点)总比度为1的结点多一个,即叶子结点数为(n_0),度为2的结点数为(n_2),则有(n_0=n_2+1)
    • 性质4:具有n个结点的完全二叉树深度为(log2(n))+1。
    • 性质5:对具有n个结点的完全二叉树,如果按照从上至下和从左至右的顺序对二叉树的所有结点从1开始编号,则对于任意的序号为i的结点有:
      • 如果i>1,那么序号为i的结点的双亲结点序号为i/2;
      • 如果i=1,那么序号为i的结点为根节点,无双亲结点;
      • 如果2i<=n,那么序号为i的结点的左孩子结点序号为2i;
      • 如果2i>n,那么序号为i的结点无左孩子;
      • 如果2i+1<=n,那么序号为i的结点右孩子序号为2i+1;
      • 如果2i+1>n,那么序号为i的结点无右孩子。

    n个关键字序列Kl,K2,…,Kn称为(Heap),当且仅当该序列满足如下性质(简称为堆性质):
    ki<=k(2i)且ki<=k(2i+1)(1≤i≤ n/2),当然,这是小根堆,大根堆则换成>=号。k(i)相当于二叉树的非叶子结点,K(2i)则是左子节点,k(2i+1)是右子节点
    若将此序列所存储的向量R[1..n]看做是一棵完全二叉树的存储结构,则堆实质上是满足如下性质的完全二叉树

    树中任一非叶子结点的关键字均不大于(或不小于)其左右孩子(若存在)结点的关键字。

    大根堆和小根堆:根结点(亦称为堆顶)的关键字是堆里所有结点关键字中最小者的堆称为小根堆,又称最小堆。根结点(亦称为堆顶)的关键字是堆里所有结点关键字中最大者,称为大根堆,又称最大堆。

    注意:

    • 堆中任一子树亦是堆。
    • 以上讨论的堆实际上是二叉堆(Binary Heap),类似地可定义k叉堆。

    详解

    ​ 堆排序利用了大根堆(或小根堆)堆顶记录的关键字最大(或最小)这一特征,使得在当前无序区中选取最大(或最小)关键字的记录变得简单。
    (1)用大根堆排序的基本思想

    • 先将初始文件(R_{[1..n]})建成一个大根堆,此堆为初始的无序区
    • 再将关键字最大的记录(R_{[1]})(即堆顶)和无序区的最后一个记录(R_{[n]})交换,由此得到新的无序区(R_{[1..n-1]})和有序区(R_{[n]}),且满足(R_{[1..n-1]}.keys≤R_{[n]}.key)
    • 由于交换后新的根(R_{[1]})可能违反堆性质,故应将当前无序区(R_{[1..n-1]})调整为堆。然后再次将(R_{[1..n-1]})中关键字最大的记录(R_{[1]})和该区间的最后一个记录(R_{[n-1]})交换,由此得到新的无序区(R_{[1..n-2]})和有序区(R_{[n-1..n]}),且仍满足关系(R_{[1..n-2]}.keys≤R_{[n-1..n]}.keys),同样要将(R_{[1..n-2]})调整为堆。

    ……

    • 直到无序区只有一个元素为止。

    (2)大根堆排序算法的基本操作

    • 建堆,建堆是不断调整堆的过程,从len/2处开始调整,一直到第一个节点,此处len是堆中元素的个数。建堆的过程是线性的过程,从len/2到0处一直调用调整堆的过程,相当于(o_{(h1)}+o_{(h2)}…+o_{(hlen/2)}) 其中h表示节点的深度,len/2表示节点的个数,这是一个求和的过程,结果是线性的(O_{(n)})
    • 调整堆:调整堆在构建堆的过程中会用到,而且在堆排序过程中也会用到。利用的思想是比较节点i和它的孩子节点left(i),right(i),选出三者最大(或者最小)者,如果最大(小)值不是节点i而是它的一个孩子节点,那边交互节点i和该节点,然后再调用调整堆过程,这是一个递归的过程。调整堆的过程时间复杂度与堆的深度有关系,是lgn的操作,因为是沿着深度方向进行调整的。
    • 堆排序:堆排序是利用上面的两个过程来进行的。首先是根据元素构建堆。然后将堆的根节点取出(一般是与最后一个节点进行交换),将前面len-1个节点继续进行堆调整的过程,然后再将根节点取出,这样一直到所有节点都取出。堆排序过程的时间复杂度是O(nlgn)。因为建堆的时间复杂度是O(n)(调用一次);调整堆的时间复杂度是lgn,调用了n-1次,所以堆排序的时间复杂度是O(nlgn)

    过程分析

    一般用数组来表示堆,若根结点存在序号0处, i结点的父结点下标就为(i-1)/2。i结点的左右子结点下标分别为2*i+12*i+2

      (注:如果根结点是从1开始,则左右孩子结点分别是2i和2i+1。)

      如第0个结点左右子结点下标分别为1和2。

    dui1

    左图为其存储结构,右图为其逻辑结构。

    构造初始堆

      初始化堆的时候是对所有的非叶子结点进行筛选。

      假设有n个元素的堆,那么最后一个非叶子元素的下标是[n/2]-1(向下取整),所以筛选只需要从第[n/2]-1个元素开始,从后往前进行调整。

      比如,给定一个数组,首先根据该数组元素构造一个完全二叉树。

      然后从最后一个非叶子结点开始,每次都是从父结点、左孩子、右孩子中进行比较交换,交换可能会引起孩子结点不满足堆的性质,所以每次交换之后需要重新对被交换的孩子结点进行调整。

    dui2

    经过不断调整最后为大根堆

    dui4

    进行堆排序

      有了初始堆之后就可以进行排序了。

      堆排序是一种选择排序。建立的初始堆为初始的无序区。

      排序开始,首先输出堆顶元素(因为它是最值),将堆顶元素和最后一个元素交换,这样,第n-1个位置(即最后一个位置)作为有序区,前n-2个位置仍是无序区,对无序区进行调整,得到堆之后,再交换堆顶和最后一个元素,这样有序区长度变为2。。。

      不断进行此操作,将剩下的元素重新调整为堆,然后输出堆顶元素到有序区。每次交换都导致无序区-1,有序区+1。不断重复此过程直到有序区长度增长为n-1,排序完成。

    • 首先,建立初始的堆结构如上图
    • 然后,交换堆顶的元素和最后一个元素,此时最后一个位置作为有序区(有序区显示为橘黄色),然后进行其他无序区的堆调整,重新得到大顶堆后,交换堆顶和倒数第二个元素的位置……

    dui5

    dui6

    • 重复此过程:

    dui8

    dui9这里写图片描述

    ​ ......

    • 最后,有序区拓展完成,即排序完成:

    dui11

    由排序过程可见,若想得到升序,则建立大顶堆,若想得到降序,则建立小顶堆

    堆排序的实现

    Java版

    package sort;
    
    public class HeapSort {
    
    	private static void buildMaxHeapify(int[] data) {
    		// 没有子节点的才需要创建最大堆,从最后一个的父节点开始
    		int startIndex = getParentIndex(data.length - 1);
    		// 从尾端开始创建最大堆,每次都是正确的堆
    		for (int i = startIndex; i >= 0; i--) {
    			maxHeapify(data, data.length, i);
    		}
    	}
    
    	/**
    	 * 创建最大堆
    	 *
    	 * @paramdata
    	 * @paramheapSize需要创建最大堆的大小,一般在sort的时候用到,因为最多值放在末尾,末尾就不再归入最大堆了
    	 * @paramindex当前需要创建最大堆的位置
    	 */
    	private static void maxHeapify(int[] data, int heapSize, int index) {
    		// 当前点与左右子节点比较
    		int left = getChildLeftIndex(index);// 5
    		int right = getChildRightIndex(index);
    
    		int largest = index;
    		if (left < heapSize && data[index] < data[left]) {
    			largest = left;
    		}
    		if (right < heapSize && data[largest] < data[right]) {
    			largest = right;
    		}
    		// 得到最大值后可能需要交换,如果交换了,其子节点可能就不是最大堆了,需要重新调整
    		if (largest != index) {
    			int temp = data[index];
    			data[index] = data[largest];
    			data[largest] = temp;
    			maxHeapify(data, heapSize, largest);
    		}
    	}
    
    	/**
    	 * 排序,最大值放在末尾,data虽然是最大堆,在排序后就成了递增的
    	 *
    	 * @paramdata
    	 */
    	private static void heapSort(int[] data) {
    		// 末尾与头交换,交换后调整最大堆
    		for (int i = data.length - 1; i > 0; i--) {
    			int temp = data[0];
    			data[0] = data[i];
    			data[i] = temp;
    			maxHeapify(data, i, 0);
    		}
    	}
    
    	/**
    	 * 父节点位置
    	 *
    	 * @paramcurrent
    	 * @return
    	 */
    	private static int getParentIndex(int current) {
    		System.out.println(current);
    		return (current - 1) >> 1;
    	}
    
    	/**
    	 * 左子节点position注意括号,加法优先级更高
    	 *
    	 * @paramcurrent
    	 * @return
    	 */
    	private static int getChildLeftIndex(int current) {
    		return (current << 1) + 1;
    	}
    
    	/**
    	 * 右子节点position
    	 *
    	 * @paramcurrent
    	 * @return
    	 */
    	private static int getChildRightIndex(int current) {
    		return (current << 1) + 2;
    	}
    
    	private static void print(int[] data) {
    		int pre = -2;
    		for (int i = 0; i < data.length; i++) {
    			if (pre < (int) getLog(i + 1)) {
    				pre = (int) getLog(i + 1);
    				System.out.println();
    			}
    			System.out.print(data[i] + "|");
    		}
    	}
    
    	/**
    	 * 以2为底的对数
    	 *
    	 * @paramparam
    	 * @return
    	 */
    	private static double getLog(double param) {
    		return Math.log(param) / Math.log(2);
    	}
    
    	private static int[] sort = new int[] { 7, 6, 2, 4, 3, 8, 9 };
    
    	public static void main(String[] args) {
    		buildMaxHeapify(sort);
    		heapSort(sort);
    		print(sort);
    	}
    
    }
    
    

    Python版

    '''
    Created on 2018年1月20日
    
    @author: ylg
    '''
    
    
    # 调整堆
    def adjust_heap(lists, i, size):
        lchild = 2 * i + 1
        rchild = 2 * i + 2
        max = i
        if i < size / 2:
            if lchild < size and lists[lchild] > lists[max]:
                max = lchild
            if rchild < size and lists[rchild] > lists[max]:
                max = rchild
            if max != i:
                lists[max], lists[i] = lists[i], lists[max]
                adjust_heap(lists, max, size)
    
    # 创建堆
    
    
    def build_heap(lists, size):
        for i in range(0, (int(size / 2)))[::-1]:
            adjust_heap(lists, i, size)
    
    # 堆排序
    
    
    def heap_sort(lists):
        size = len(lists)
        build_heap(lists, size)
        for i in range(0, size)[::-1]:
            lists[0], lists[i] = lists[i], lists[0]
            adjust_heap(lists, 0, i)
        return lists
    
    
    a = [7, 6, 2, 4, 3, 8, 9]
    print("排序之前:%s" % a)
    
    b = heap_sort(a)
    
    print("排序之后:%s" % b)
    
    

    时间复杂度

    • 最优时间复杂度:O(nlogn)
    • 最坏时间复杂度:O(nlogn)
    • 稳定性:不稳定
    • 堆排序的时间,主要由建立初始堆和反复重建堆这两部分的时间开销构成
  • 相关阅读:
    Uploadify & jQuery.imgAreaSelect 插件实现图片上传裁剪
    Web 开发者不可不知的15条编码原则
    ASP.net 判断上传文件类型的三种方法
    《JavaScript 实战》:实现图片幻滑动展示效果
    如何构建一个很棒网站页脚(Website Footer)
    机器为什么可以学习(1)---测试和训练过程
    机器什么时候可以学习(4) --- 学习的可能性(feasibility of learning)
    算法学习--二分查找的学习
    逻辑回归-监督学习
    线性回归—监督学习
  • 原文地址:https://www.cnblogs.com/yangliguo/p/8330564.html
Copyright © 2020-2023  润新知