计算机速成课第三十五集计算机视觉

计算机速成课第三十五集计算机视觉
1. 背景
- 视觉是信息最多的感官，比如周围的世界是怎样的，如何和世界交互
- 因此半个世纪来，计算机科学家一直在想办法让计算机有视觉
- 因此诞生了「计算机视觉」这个领域
2. 图像
- 是像素网格，每个像素通过红、绿、蓝三种基色来定义，
- 通过组合三种颜色的强度，可以得到任何颜色，也叫 RGB 值
3. 最简单的计算机视觉算法

最适合拿来入门的，是跟踪一个物体，比如一个粉色的球

4. 颜色跟踪算法
- 一个个像素搜索，但是这种方法不适合占多个像素的特征
5. 检测垂直边缘的算法：
- 把图片转成灰度
- 某像素是垂直边缘的可能性取决于左右两边像素的颜色差异程度，左右像素的差别越大，这个像素越可能是边缘，如果色差很小，就不是边缘
- 把「核」用于照片中的每个像素的时候，垂直边缘的像素值很高，水平边缘几乎看不见
6. 核/过滤器
- 是一个操作的数学符号
- 里面的数字用来做像素乘法
- 总和存到中心像素里
- 作用：可以做很多种图像转换。例如：锐化图像、模糊图像，也可以匹配特定形状，
7. 卷积
- 把「核」应用于像素块，这种操作叫「卷积」
8. Prewitt 算子
- 即（垂直和水平）边缘增强的核
- 以发明者姓名命名
9. 维奥拉·琼斯人脸检测
- 单个核找出脸的图像的能力很弱，但组合在一起会相当准确
10. 卷积神经网络
- 如今的热门算法
- 用很多个神经元来处理图像数据，每个核都会输出一个新图像，本质上是被不同的「核」处理了，输出后会被后面一层神经元处理，卷积卷积再卷积，不断重复，然后增加复杂度，直到某一层把所有特征放到一起，
- 不是非要有很多层，但是一般有很多层来识别复杂物体核场景，所以算是「深度学习」
11. 维奥拉·琼斯和卷积神经网络的使用场景
- 识别人脸
- 识别手写文字
- 在 CT 扫描中发现肿瘤
- 监测马路是否拥堵
12. 情感识别算法
- 识别出人脸后，可以用更专用的计算机视觉算法来定位面部标志，比如眉毛、鼻尖和嘴角
- 有了标志点，判断眼睛张没张开就很容易了，原理就是判断点和点之间的距离，
- 眉毛相对眼睛的位置，可以代表惊喜或者喜悦
- 根据嘴巴的标志点，检测出微笑也很简单
- 上面这些场景都可以使用「情感识别算法」来识别，让电脑知道你是开心、忧伤、沮丧或者困惑等等，然后计算机给出合适的行为，
13. 生物识别
- 面部标记点，也可以捕捉脸的形状，比如两只眼睛之间的距离，以及前额有多高
- 场景: 手机解锁、使用摄像头跟踪人
总结：抽象是构建复杂系统的关键
相关阅读:
Python中的passed by assignment与.NET中的passing by reference、passing by value
从系统性能优化谈对象相等性
 .NET Core应用的三种部署方式
 cola-ui的使用
 谁不是一边娶妻生子，一边死在路上。请你好好生活
 MySQL的5种时间类型的比较
 压缩20M文件从30秒到1秒的优化过程
 CentOS 7下MySQL 5.7安装
 CentOS6.5下安装JDK1.7+MYSQL5.5+TOMCAT7+nginx1.7.5环境安装文档
 CentOS下安装FreeTDS
原文地址：https://www.cnblogs.com/zxxsteven/p/16340278.html

计算机速成课 第三十五集 计算机视觉

1. 背景

2. 图像

3. 最简单的计算机视觉算法

4. 颜色跟踪算法

5. 检测垂直边缘的算法：

6. 核/过滤器

7. 卷积

8. Prewitt 算子

9. 维奥拉·琼斯 人脸检测

10. 卷积神经网络

11. 维奥拉·琼斯 和 卷积神经网络的使用场景

12. 情感识别算法

13. 生物识别

总结：抽象是构建复杂系统的关键

计算机速成课第三十五集计算机视觉

9. 维奥拉·琼斯人脸检测

11. 维奥拉·琼斯和卷积神经网络的使用场景