opengl performance optimization

OpenGL 性能优化

作者: Yang Jian (jyang@cad.zju.edu.cn)

日期: 2009-05-04

本文从硬件体系结构、状态机、光照、纹理、顶点数组、LOD、Cull等方面分析了如何优化 OpenGL 程序的性能。

OpenGL状态机（State Machine）

OpenGL状态机的目前只有1.1版本，也是最经典的，大家可以参考下述链接：

ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.pdf

ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.ps

它们是内容相同而格式不同的状态机表达。整个文件中只有一张Postscript的图。这张图实际上就是SGI RealityEngine的硬件程序流程描述。

首先硬件接受应用程序输入的顶点信息，（Color, Normal, Texture, EdgeFlag， Vertex, ），经过世界坐标变换（glTranslate, glRotate, glScale），接着进行User Clip Plane，之后进入视图变幻和裁减（Projection Matrix），然后视口变换（ViewPort），经过Primitive Setup，光栅化处理（Flat或Phong）生成片断Fragment，下面的对每个依次作纹理贴图计算，纹理混合(Texture Blend)，深度测试(Depth Test)，模板测试（Stencil测试），透明测试（Alpha Test），透明混合（Apha Blend），然后写入颜色缓冲区，深度缓冲区，模板缓冲区。

整个流程如下：

Application
Vertex Information (Material , Normal, Textcoord, EdgeFlag, Vertex Position)
Lighting
World Matrix Transform
User Clip Plane Clipping
Projection Matrix Transform and Clip
ViewPort
Primitive Setup ( point, Line, Triangle)
Rasterization( Flat or Phong ) == > Generate Fragment
Fragment Texture Addressing () == Texture In Video memory
Fragment Texture Blend ( blend Diffuse, Specular and Texture of Fragment )
Depth Test == with Depth Buffer
Stencil Test == with Stencil Buffer
Alpha Test == with alpha channel of color buffer
Alpha Blend == with color buffer
Fragment write to FrameBuffers

我们可以看到OpenGL每处理一个几何图元，需要经过大量的处理过程。大家应该对这个图的每个步骤地工作相当清晰。这里有几个概念需要说明。

第一个概念是Fragment，片断或者片元。每一个片断对应屏幕上的一个像素点，它是光栅化（Rasterization）引擎使用FLAT shading或 Phong Shading生成的。 Rasterization引擎产生的片断包含一下信息：

屏幕坐标；
颜色信息，Diffuse和Specular；
深度信息和模板信息；
纹理坐标,u,v。

第二个概念是纹理混合（Texture Blend），它是指纹理颜色和片断颜色（Diffuse和Specular）合成的方式。就是指glTexEnv的效果，根据不同的参数决定片断只保留Texel（纹理元）还是使用Texel（纹理元）和片断的颜色做混合。

第三个概念是透明融合Alpha Blend。如果一个片断经过深度测试，模板测试和透明测试，那么它将和缓冲区对应位置的像素作透明融合。

相信大家对OpenGL 状态机有了一定的了解，实际上这也是Direct3D8以前的图形流水线的主要参考模型（graphics processing pipeline）。

如果我们能够在流水线中减少一个操作，我们就能够获得性能的提高，当然前提是我们能够绘制正确的图像。

典型的D3D9硬件体系结构

上面的OpenGL状态机实际上就是SGI的Reality Engine和其他Direct3D7及其一下版本的图形硬件流水线结构。下面我向大家介绍D3D9的典型硬件体系结构（或者说Direct3D9的参考模型）。

Application
IDirect3DDevice9::DrawIndexedPrimitive
D3D Driver (Display Driver ) Send Commands to Hardware by AGP
following is hardware Command Interpreter
“Fetch” Indexed Primitive data to Vertex Shader Cache (access index buffer and Vertex Buffer)
“Put“ Cached data to Vertex Shader Input
Vertex Shader do Transform, Light and Vertex Blend
Vertex Shader Output Vertices in Screen coordinate Space, Screen Pos, Diffuse, Texture Coord
User Clip plane
Guard band clip
Primitive Setup (Point, Line, Triangle)
Rasterizaiton(flat or Phong)
Pixel Shader (Texture addressing and texture blend)
Depth Test
Stencil Test
Alpha Test
Alpha Blend
Frame Buffers

我们可以看到D3D9的流水线和OpenGL 1.1的流水线有很大的不同。

OpenGL的顶点数据是通过调用OpenGL API一个个的送到流水线的几何变换处理单元，立即模式(immediate mode)，而D3D9通过 Fetch和Put两步工作，从Vertex Buffer中读出送入Vertex Sahder的Input寄存器；
OpenGL 1.1的光照计算和几何变换是通过传统的固定流水线（TnL: Transform and Lighting）完成的—fixed function graphics processing(FGP)，而D3D9时通过Vertex Shader实现，它比FFGP更为复杂，可以完成更多的功能；
OpenGL 1.1的Texture mapping和Texture Blend独立的两个步骤，而D3D9是通过Pixel Shader，PS是可编程的(Programmable Graphics Processing)。

D3D8/D3D9的Vertex Shader和Pixel Shader是两个图形体系结构巨大的进步，当然使得图形程序设计更为灵活，也更为困难和复杂。

对于D3D8/D3D9的硬件体系结构，我们的程序优化工作有多了两个内容，优化Vertex Shader和Pixel Shader。

今天我的重点放在传统图形流水线(TnL)的性能优化上。

基本优化方法

减少OpenGL的状态变化

如果我们应用程序不断地改变OpenGL的状态，那么驱动程序和AGP数据传输，图形硬件的负担会则增加很多。因为每当我们改变一个OpenGL状态，可能会涉及到硬件的多个寄存器的数据，那么驱动程序就必须将修改的硬件寄存器通过AGP总线发送到硬件，占用大量的CPU资源和AGP带宽和硬件命令解释器时间。

建议1：尽可能将状态相近的图形绘制命令放在一起，减少OpenGL状态变化。

建议2：使用状态集合，降低驱动程序的CPU处理时间。

避免光照计算特别是高光计算（Specular）

Specular的计算是光照计算中最为耗时的运算之一。Diffuse计算相对比较普通，一般图形硬件都会对Diffuse运算进行优化。

图元类型优化

我们使用的大多数图元类型都是Triangle。如果我们每次都是用GL_TRIANGLES，我们将浪费大量的CPU时间和AGP带宽和图形硬件资源。原因如下：

使用GL_TRIANGLES，我们每绘制一个三角形，我们就会发送三个定点的数据，如果我们使用G:_TRIANGLE_FAN或者GL_TRIANGLE_STRIP，那么我们可以平均每个三角形一个顶点。
一般的硬件设计中都开辟一定的Cache区域，如果使用GL_TRIANGLE，我们将无法使用图形硬件的Cache，浪费大量的图形硬件TnL时间。
使用GL_TRIANLGES将比GL_TRIANGLE_STRIP多耗费200%的硬件TnL时间。

根据测试，我三年前在Geoforce 3和 Geoforce Quadro 3上对OpenGL做的测试，GL_TRIANGLE_STRIP比GL_TRIANLGES 快100% ~ 200%。

建议：尽可能地使用GL_TRIANGLE_STRIP替代GL_TRIANGLES。

三角形Stripe的成熟软件：http://www.cs.sunysb.edu/~stripe/

光照条件下使用glMaterial替代glColor

在光照条件下，如果程序使用glMaterial，那么驱动程序只加载Material属性一遍到硬件，使用glColor将使得驱动程序对每个定点加载颜色信息。将会占用更多的CPU时间和AGP带宽。

纹理优化

优化纹理加载

初学OpenGL一个常见的性能优化方面的问题是每次使用一个纹理的时候，都重新设置纹理参数并且调用 glTexImage2D函数。事实上，OpenGL对纹理和Display List都有一个命名机制，glBindTexture，glDeleteTexture，glBindTexture。下面我们比较一下效果。

方法一:每次使用纹理前调用glTexImage2D，并重新设置纹理参数。那么驱动程序将不断地调用IDirectDraw7::CreateSurface并且将数据从用户内存区拷贝到驱动程序系统内存区，然后再从系统内存区域复制到video memory。

方法二：使用glTexEnv和glTexImage2D设置当前的纹理参数和纹理内容，，然后调用glBindTexture，例如5号纹理；如果需要使用该纹理，再次调用glBindTexture函数，glBindTexture会把5号纹理设置为当前的纹理，并且参数上次设置的参数，你可以根据需要决定是否修改参数。方法二的主要优点在于应用程序仅仅调用glTexImage2D，从而节省大量的CPU和AGP时间，因为从CPU往video memory复制是最耗时，overhead is very high。

建议:

当应用程序需要多个Textures，在调用wglMakeCurrent成功后，调用glGenTextures产生命名纹理，并且使用glBindTexture分别进行纹理绑定；
在wglDeleteContext之前使用glDeleteTexture将所有的纹理从驱动程序内存和video memory释放。
每次需要使用纹理时，再次调用glBindTexture

进一步阅读：

尽量使用MipMap纹理

一般图形硬件都支持 Mipmap，如果应用程序使用 Mipmap，那么图形硬件会根据当前的片断对应的纹理 LOD 计算 Texel，这样能够节省大量的纹理元 video memory 寻址时间，而且图形硬件对纹理元做 Cache，mipmap 中尺寸较小的纹理（Level比较大的）能够节约大量的计算时间。如果应用程序仅仅提供 Level 0 的最大的纹理，那么图形硬件每次都将使用这个纹理作纹理元计算，不但会浪费大量的计算资源，而且消耗很多的图形芯片带宽。

建议：

不要使用特别大的纹理. > 256x256
使用MipMap。

Tips: gluBuild*DMipmaps 能够将非2^n的纹理转化带有MipMaps的标准OpenGL纹理。不过gluBuild*DMipMaps不支持压缩纹理的自动Mipmap。

进一步阅读： glu Manual

纹理组合

在游戏或者可视化应用中，我们总是会遇到许多非常小的纹理，一种比较好的办法是我们把这些纹理组合成一个比较大的纹理，例如256x256，这样驱动程序在加载纹理的video memory的地址时候，驱动程序仅仅需要加载一次家可以了。这种方法在多个造型软件中也经常见到，例如人体造型软件Pose，它将一个人的头发，脸，眼睛，等组合为一个纹理。

建议: 将多个小纹理组合为一个大纹理，然后修改对应三角形定点的纹理坐标，或者使用glMatrixMode(GL_TEXTURE)对定点的纹理坐标作几何变换。

使用MultiTexture替代Multi-Pass

OpenGL 1.2.1 extension: GL_ARB_multitexture

Direct3D7(OpenGL .2.1)及更高版本支持的显示卡都支持MutliTexture功能，我们可以充分利用这个特性做多纹理贴图替代Multi-Pass。

例如我们希望会绘制一个可乐瓶子，而且这个可乐瓶子需要两层标签，利用Multi-Pass我们可以分三次绘制，

 //绘制瓶子的本色，例如绿色，
 glMaterial (…) ;

glDisable(GL_BLEND);
glDepthFunc(GL_LEQUAL);
glBegin(GL_TRIANGLE_STRIP);
   //Texture
   glNormal();
   glVertex(); ….
glEnd();
 //绘制里面的标签
 glDpethFunc(GL_EQUAL);
  glEnable(GL_BLEND);
 glBindTexture(0,);
 glBegin();
 glTextCoord();
 glVertex();
 glEnd();

//绘制第二层标签
 glDpethFunc(GL_EQUAL);
  glEnable(GL_BLEND);
 glBindTexture(1,);
 glBegin();
 glTextCoord();
 glVertex();
 glEnd();

如果使用MutliTexture(OpenGL.2.1扩展)，我们只需要Single Pass完成这项工作：

 glMaterial();
 glDepthFunc(GL_LEQUAL);
 glDisable(GL_BLEND);
 glActiveTExtureARB(GL_TEXTURE0_ARB);
 glTexEnv(,,GL_MODULATE);
 glBindTExture(0);
 glActiveTExtureARB(GL_TEXTURE1_ARB);
 glTexEnv(,,GL_MODULATE);
 glBindTExture(1);
 glBegin(GL_TRIANGLE_STRIP);
 glNormal();
 glMultiTexCoord2fARB (GL_TEXTURE0_ARB,u0,  v0 );
 glMultiTexCoord2fARB (GL_TEXTURE1_ARB, u1,  v1);
glVertex();
 glEnd();

Mutlitexture的方法将比第一种方法节约流水线的4个运算步骤，Depth Test，Alpha Test，Alpha Blend，和 write to frame Buffers。

建议：检查OpenGL extension支持，尽可能使用MultiTexture。

进一步阅读:

OpenGL specs:http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry

使用压缩纹理

OpenGL支持的压缩纹理包括：

GL_COMPRESSED_RGB_S3TC_DXT1_EXT
GL_COMPRESSED_RGBA_S3TC_DXT1_EXT
GL_COMPRESSED_RGBA_S3TC_DXT3_EXT
GL_COMPRESSED_RGBA_S3TC_DXT5_EXT

压缩纹理比非压缩纹理具有更快的运算速度和更小的存储空间要求，而且很容易使用图形硬件纹理Cache。因此能够显著地提高应用程序性能，特别应用程序的纹理数据量巨大。

缺点：要求纹理的色彩空间规律性极强，否则会造成严重的颜色失真。

建议：检查下面的三个OpenGL Extension，尽可能地使用压缩纹理。

GL_ARB_texture_compression
GL_EXT_texture_compression_s3tc
GL_S3_s3tc

建议：检查OpenGL extension支持，尽可能使用MultiTexture。

进一步阅读:

OpenGL specs:http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry

我们可以使用DirectX SDK的工具产生压缩纹理dxtex ，或者从nivdia获得工具和Tutorial: http://developer.nvidia.com/object/nv_texture_tools.html

合理的纹理尺寸

图形硬件系统一般使用4x4，8x8，最高到64x64的纹理Cache策略，如果你的纹理比较简单，在满足可识感官的要求下，尽可能地使用较小的纹理尺寸。

Vertex Array

相对于glBegin, glEnd以及Display List， Vertex Array对于驱动程序而言具有最高的内存复制效率，因为驱动程序仅仅需要一次内存数据移动，glBend, glEnd和Display List，则需要三次数据移动。因此尽可能多地使用 glDrawArrays和glArrayElement的方式。

针对Vertex Array，OpenGL 有如下的Extensions:

GL_EXT_vertex_array
GL_ATI_element_array
GL_EXT_draw_range_elements
GL_EXT_compiled_vertex_array
GL_SUN_mesh_array
GL_ATI_vertex_attrib_array_object

其中前面三个是经常使用 OpenGL extension，例如QuakeIII, CS， Half Life等。

进一步阅读:

OpenGL specs:http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:http://oss.sgi.com/projects/ogl-sample/registry

Buffer Object

事实上，我上面所讲到的内容都是传统的OpenGL图元定义，本质上都是通过glBegin和glEnd定义，都属于立即模式绘制的一种方法。而 Direct3D都是通过Vertex Buffer和Index Buffer实现图元及其组成顶点的属性定义。而Vertex Buffer和Index Buffer都在保存在video memory中，这样应用程序不需要每次都把地顶点数据通过AGP发送给硬件，从而加快了处理速度。为了在弥补这个缺陷，Nvidia和ATI推出了下面的Extension：GL_ARB_vertex_buffer_object

同时这个extesion也为 OpenGL 的Vertex Proram（即 D3D9的Vertex Shader）服务，关于这个Extension相关内容比较多，我就不展开这个讲述了。这里告诉大家，它是比所有立即模式图元定义方法都快的一个 OpenGL extension。原因如下：

它只需要一次复制到OpenGL申请的video memory，随后驱动程序仅仅每次向图形硬件报告它的物理地址；
而对于立即模式的图元定义，驱动程序每次都需要从内存中把数据复制到AGP non-local video memory，然后通过AGP总线发送到图形硬件处理器。

请参考 OpenGL extension Registry:

http://oss.sgi.com/projects/ogl-sample/registry

Advanced Tech :Vertex Program 和 Fragment Program( D3D Vertex Shader和 Pixel Shader)

使用 Shader 对渲染管线进行编程，控制渲染过程。

Less Operation for Depth Test，Stencil Test和 Alpha Test

事实上，Depth Test，Stencil Test，Alpha Test能够影响到OpenGL 像素填充的30%。也就是说，如果你对他们进行优化，能够获得30%的性能。

我曾经对quake III的性能优化做过测试，得到下面结果；

  Disable  Depth Test        2%   gain
  Disable  Alpha Test    6%   gain
  Disable  Alpha blend   2%   gain
  Disable  Depth Clear always15%  gain

事实上，Quake III本身能够进一步优化，大家都知道Quake III是最经典的一个游戏引擎，它绘制图形采用BSP的结构，使用多纹理贴图和Alpha Blend获得非常好的光照效果，绘制图元的顺序是从最远处的物体到最近处的物体，由远及近的次序，那么如果QuakeIII把它改作由近及远的次序， Quake III中也少数的三角形遮挡关系，采用由近及远的次序绘制图形的时候，Depth Test将扔掉5%~10%甚至更多的片断（像素），那么流水线后面的操作将不会被执行，从而获得性能的提高，我相信这将会带来5%~15%的性能提高。

那么对于室外场景的漫游，我建议大家采用由近及远的次序。也许会带来极大的性能提高。

NoUse Depth Test

如果绘制的时候能够保证所有的绘制顺序是先后后前的顺序绘制，那么就可以避免Depth Test的时间。

很多人都在做类似的工作，我想以后抛砖引玉，作为一个单独的专题介绍。

MISC: LOD, cull, SwpaBuffers, wglMakeCurrent

LOD

LOD,很经典的方法，使用较少几何数据量（Vertex）和纹理运算量(Texture LOD: mipmap)。

CULL Face

CULL Face，即背面删除，如果不绘制背面的三角形，理论上可以获得接近50%的性能提高，前提是假设TnL或者Vertex Shader足够的快。

glEnable(GL_CULL_FACE) ;
glCullFace(GL_BACK);

在我对QuakeIII的测试中，尽管QuakeIII是基于BSP树的，理论上QuakeIII不应该有背面的物体，我仍然获得了3%~5%的性能提高（不同的CPU和总线速度）。

SwapBuffers

事实上，全屏幕的OpenGL程序是调用IDirectDrawSurface7::Flip或 IDirect3DDevice8::Present，那么每进行FLIP操作将比窗口的OpenGL程序少做 1024X768X4 bytes的显示内存数据移动，将设分辨率为1024X768X32bits，根据不同的应用，能够获得相当可观的性能提高，大家可以自己算算。

wglMakeCurrent

wglMakeCurrent是一个非常耗时的操作，2001年我对Geoforce3 Ti500进行了测试，在最好的情况下，Geoforce3 Ti500能够做5000次/秒。当时的CPU速度好像是800M还是1.4Ghz。我不太清楚了。同时wglMakeCurrent也许会带来副作用，一些图像可能发生丢失。其中一个典型的测试，indy3D就是采用这种方法，我在跟踪这种程序的时候，觉得Sense8(开发vtk的那个公司)程序设计能力太糟糕了。

建议:一定要避免调用wglMakeCurrent。

避免像素操作（Pixel）

在OpenGL的实现中，都是使用纯软件的方法实现从系统内存到video memory 的复制，那么这些将中断整个图形流水线的执行，等待硬件空闲后使用CPU完成，它们将大大降低程序的执行效率。这些操作包括：

glBitmap
glDrawPixels
glReadPixels
glCopyPixels

解决办法：使用纹理替代像素操作，例如建设你希望在屏幕输出一行字，例如” Qauke III Arena”，那首先产生一个纹理，它包含所有的字母和数字，我这里无法贴BMP图像，我画一个存储结构：代表RGBA各式的2D 纹理，这是Quake III 的字母纹理顺序。

 A B C D E F G H I J KLM
 N O P Q R S T U V WX Y Z
a b c d ….
1 2 3 4 5 6 9 8 9 0

使用两个三角形产生一个字母或者数字。

Reference

OpenGL Performance Optimization