第1章 PyTorch与深度学习
深度学习的应用
- 接近人类水平的图像分类
- 接近人类水平的语音识别
- 机器翻译
- 自动驾驶汽车
- Siri、Google语音和Alexa在最近几年更加准确
- 日本农民的黄瓜智能分拣
- 肺癌检测
- 准确度高于人类的语言翻译
- 读懂图片中的图像含义
现今深度学习应用中最受欢迎的技术和出现的时间点
技术 | 年份 |
---|---|
神经网络 | 1943 |
反向传播 | 20世纪60年代初期 |
卷积神经网络 | 1979 |
循环神经网络 | 1980 |
长短期记忆网络 | 1997 |
深度学习过去的叫法
20世纪70年代叫控制论(cybernetics),20世纪80年代称之为联结主义(connectionism),现在称为深度学习或者神经网络
深度学习现在流行起来的原因
- 硬件可用性
- 数据和算法
- 深度学习框架
硬件可用性
图形处理单元(Graphic Processing Unit,GPU)在完成数百万甚至数十亿的参数上的大规模数学运算(如矩阵乘法)时可以搞出几个数量级。
GPU内存,NVIDIA的1080ti大概有11GB的内存,价格在700美元左右
各种云服务,如AWS,Google Cloud,Floyd(这家公司提供转为深度学习优化的GPU机器)
数据和算法
文本、图片、视频和音频数据
在计算机视觉领域,ImageNet竞赛在提供1000种类别中的140万图片的数据集方面发挥了巨大作用
过去比赛中一些成功的算法有VGG、ResNet、Inception、DenseNet,现在这些算法已在行业中得到应用,用于解决各种计算机视觉问题
其他一些流行的数据集:
- MNIST
- COCO数据集
- CIFAR
- The Street View House Numbers
- PASCAL VOC
- Wikipedia dump
- 20 Newsgroups
- Penn Treebank
- Kaggle
各种不同算法的发展:
批规一化、激活函数、跳跃式连接(skip connection)、长短期记忆网络(LSTM)、dropout等
深度学习框架
早期,需要具备C++和CUDA的专业知识来实现深度学习算法
现在,随着深度学习框架的开源,只需具备脚本语言知识(如Python)即可
行业中流行的深度学习框架有:TensorFlow、Caffe2、Keras、Theano、PyTorch、Chainer、DyNet、MXNet和CNTK
PyTorch以及其他大多数深度学习框架,主要用于两个方面:
- 用GPU加速过的运算替代与NumPy类似的运算;
- 构建深度神经网络
PyTorch易用简单,不同于其他大多数流行的使用静态计算图的深度学习矿机,PyTorch使用动态计算,因此在构建复杂架构时可以有更高的灵活性。
PyTorch大量使用了Python概念,例如类、结构和条件循环,允许用户以纯面向对象的方式构建深度学习算法。
由于PyTorch最初主要为研究目的而构建,因此不建议用于哪些对延迟要求非常高的生产环境。然而,随着名为Open Neural NetWork Exchange(ONNX)的新项目的出现,这种情况正在发生改变,该项目重点是将在PyTorch上开发的模型部署到适用于生产的Caffe2这样的平台上。该项目得到了Facebook和微软的支持。