• 写出高性能的多核并行编程


    什么样的程序运行效率高?

    程序的数据和指令都在cache中。没有cache miss出现。

    所以怎样让并行程序性能高基本能够演变成 怎样降低cache miss?

    尤其是多核下。并行程序cache的问题已经无法回避了,否则并行的效率还没有一个线程高。
    敲代码的时候MESI协议要时刻浮如今眼前。

    借用一句歌词:如今不是从前了,兔子比狐狸狡猾了。

    1.绞尽全部的脑汁,避免使用全局变量,尤其是程序执行过程中可能改动的变量。

    全部线程仅仅读的变量能够放松一丁点儿要求。

    2.per thread per core。每一个core执行一个线程。每一个线程执行在一个cpu core上。

    3.Keep data structures  per core。

    每一个core只改动自己的数据结构。

    4.Keep data structures cache alignment。

    保证结构体定义的时候cache line对齐。

    能够自己加入pad,也能够用gcc提供的__attribute__。

    5.避免false sharing。定义数据结构的时候不能这么搞: int num[CPU_NUMS],这样在for循环中对num[i]++的时候就会造成false sharing。这也是为什么结构体定义要cache line对齐。

    6. Lock-free data structures。锁的代价是巨大的。搞不好还会死锁,多核间通信用lock-free fifo。

    7.cpu affinity。线程创建后马上绑定到详细的core上,然后再 进行分配内存,保证内存分配在自己的领土这边。

    8.分支预測。

    使用gcc提供的likely和unlikely。

    9.公共子表达式消除。一个函数中假设多次用到同一个表达式,能够開始的时候定义一个指针。

    10.循环中消除指针引用。比方以下这样:
    for(i=0; i< 1000; i++)
    {
        *dest++;
    }
    能够先定义一个局部变量进行累加。最后再把局部变量赋值给指针。

    11.X86平台intel提供了非常多的sse指令,尤其是在字符串的搜索和查找方面。

    12.多用perf tool。

    临时想到的先记录下来,找个时间给出详细的代码逐条举例说明一下。
    很多其它更好的文章在个人独立博客: www.hiyoufu.com


    版权声明:本文博主原创文章。博客,未经同意不得转载。

  • 相关阅读:
    剑指office--------重建二叉树
    剑指office--------二进制中1的个数
    剑指office--------最小的K个数 (待补充)
    剑指office--------二维数组的查找
    剑指office--------替换空格
    Redis集群
    一致性hash算法
    Zab协议(转)
    Redis线程模型
    Http Cookie和session
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/4832385.html
Copyright © 2020-2023  润新知