先上图,下图通过输入输出来区分不同学科。
计算机视觉(Computer Vision, CV),输入为图像或图像序列,输出为某种信息或描述,目的在于理解图像,获得语义信息。比如目标识别任务,输入一张图片,输出图中有哪些物体、都在什么位置,典型任务包括检测、识别、分割、定位、追踪、动作识别、OCR等,详见wiki-Computer vision。
数字图像处理(Digital Image Processing, DIP),输入为图像,输出也是图像,目的在于转换图像。智能手机照相APP中的各种滤镜以及Photoshop中的各种图像操作使用的就是数字图像处理技术,包括增强、去噪、对比度拉伸、缩放、几何变换、灰度化、二值化等,详见wiki-Digital image processing。需要注意的是,DIP一般是通过逐像素操作对输入图像进行变换,“以图搜图”表面上看输入输出均为图像,其意图是找到和图片内容相似的其他图片,在技术实现上其实是预先对图像库提取好特征(描述),然后对输入图像提取特征,将其与库中的特征计算相似度并排序,将相似度高的排在前面,所以“以图搜图”实际上是计算机视觉的应用。
计算机图形学(Computer Graphics, CG),输入为某种描述(语义信息),比如点集、颜色等,输出为生成的图像(虚拟场景),目的在于生成图像,涵盖建模、渲染、动画、人机交互等内容,在游戏、动画、3D电影中应用广泛,详见什么是计算机图形学?。
随着研究的深入,三个学科在很多地方不断交叉融合。图像处理常作为计算机视觉pipeline中的预处理环节,最新版Photoshop中也加入了很多基于图片内容识别技术的黑科技用于图像处理,图形学渲染成像时也常会使用图像处理技术来获得更好的成像效果。
此外,虚拟现实(Virtual Reality, VR)和增强现实(Augmented Reality, AR)需要同时用到DIP、CV和CG技术,需要识别现实影像同时生成虚拟影像。
还有一个新兴学科叫计算摄影(Computational Photography),
计算摄影学(Computational Photography)是一门将计算机视觉、数字信号处理、图形学等深度交叉的新兴学科,旨在结合计算、数字传感器、光学系统和智能光照等技术,从成像机理上来改进传统相机,并将硬件设计与软件计算能力有机结合,突破经典成像模型和数字相机的局限性,增强或者扩展传统数字相机的数据采集能力,全方位地捕捉真实世界的场景信息。
—— from https://www.innovation4.cn/toutiao/100917-9701010937/
与前面学科不同的地方在于,计算摄影希望通过软硬件相结合的方法来改善成像效果,最近各大智能手机比拼的摄像效果,背后比的就是计算摄影技术,像超清夜景、AI降噪、全景拼接、防抖等等,还有大家熟悉的HDR模式也是一种早期的计算摄影技术,其获取不同曝光时长的图像祯,综合各自的最佳细节来合成最终图像。