强化学习是一个连续决策的过程,传统的机器学习中的有监督学习是给定一些标注数据,学习一个好的函数,对未知数据做出很好的决策。但有时候,并不知道标注是什么,即一开始不知道什么是“好”的结果,所以RL不是给定标注,而是给一个回报函数,这个回报函数决定当前状态得到什么样的结果(“好”还是“坏”),其数学实质是一个马尔可夫决策过程。最终的目的是决策过程中整体回报函数期望最优。
这个过程有点像有监督学习,只是标注不是预先准备好的,而是通过一个过程来回的调整并给出所谓的“标注数据”,这个过程就是强化学习。
强化学习和深度学习有什么关系?深度学习参与的强化学习与传统的强化学习有何不同?为什么要引入深度学习?
强化学习的过程中,处理的是状态,实际上,很多时候状态是连续的、复杂的、高级的。例如128*128的画面,那么状态的数目是指数级增长的,而且画面是连续的,就算每秒30帧来算,处理数据的速度根本跟不上游戏画面变化的速度。因此,求助于深度学习。深度学习非常善于处理高维数据,并飞快地从中抽取模式。在图像处理中,用像素的集合体来表示完整的图像。这时,特征选取的好坏对于分类或者预测的结果影响非常大。因此,选取一个什么特征,怎么选取一个特征对于解决实际问题非常重要。人为地选取特征是一件耗时耗力且面对大量未知的东西没有什么规律可循的方法,选取的好不好很大程度上靠经验和运气。既然手工选取特征不太好进行,能不能让机器学习自动学习一些特征呢?答案是能!!!深度学习就是用来干这事的。深度学习的别名叫(Unsupervised Feature Learning),因此自动学习特征的方法,统称为深度学习。