简介
动态规划(dynamic programming,简称dp),是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。(没办法,其实算法就是数学,毕竟数学是基础学科,由数学支撑的学科太多太多)
分类
动态规划一般可分为线性动规,区域动规,树形动规,背包动规四类。
举例:
线性动规:拦截导弹,合唱队形,挖地雷,建学校,剑客决斗等;
区域动规:石子合并, 加分二叉树,统计单词个数,炮兵布阵等;
树形动规:贪吃的九头龙,二分查找树,聚会的欢乐,数字三角形等;
背包问题:01背包问题,完全背包问题,分组背包问题,二维背包,装箱问题,挤牛奶等;
基本思想
动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。与分治法不同的是,适合于用动态规划求解的问题,经分解得到子问题往往 不是互相独立的 。若用分治法来解这类问题,则分解得到的子问题数目太多,有些子问题被重复计算了很多次。如果我们能够 保存已解决的子问题的答案 ,而在需要时再找出已求得的答案,这样就可以避免大量的重复计算,节省时间。我们可以 用一个表来记录所有已解的子问题的答案 。不管该子问题以后是否被用到,只要它被计算过,就将其结果填入表中。这就是动态规划法的基本思路。具体的动态规划算法多种多样,但它们具有相同的 填表 格式。
说到这个思想,想到了大一时老师讲斐波那契数列(Fibonacci sequence),很容易得到递归式,递归出口也给了,当时就直接用了递归写了。后来老师说,试试n=1000甚至更大时,你的程序需要多久。我发现真的好慢,后来了解到函数递归栈,了解到计算机并不会把算过的子问题保存起来。最后发现可以 将子问题存在数组 里面,这样快了很多。当然,这是最简单的了,还有需要填二维数组的。才开始系统的学动态规划,慢慢总结吧。
基本思路
(1)确定问题的决策对象。
(2)对决策过程划分阶段。
(3)对各阶段确定状态变量。
(4)根据状态变量确定费用函数和目标函数。
(5)建立各阶段状态变量的转移过程,确定状态转移方程。
状态转移方程
状态转移方程的一般形式:
一般形式: U:状态; X:策略
顺推:f[Uk]=opt{f[Uk-1]+L[Uk-1,Xk-1]} 其中, L[Uk-1,Xk-1]: 状态Uk-1通过策略Xk-1到达状态Uk 的费用 初始f[U1];结果:f[Un]。
倒推:
f[Uk]=opt{f[Uk+1]+L[Uk,Xk]}
L[Uk,Xk]: 状态Uk通过策略Xk到达状态Uk+1 的费用
初始f[Un];结果:f(U1)
适用条件
任何思想方法都有一定的局限性,超出了特定条件,它就失去了作用。同样,动态规划也并不是万能的。适用动态规划的问题必须满足最优化原理和无后效性。
1. 最优化原理 (最优子结构性质) 最优化原理可这样阐述:一个最优化策略具有这样的性质,不论过去状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。
2. 无后效性 将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,托福考试它以前各阶段的状态无法直接影响它未来的决策,而只能通过当前的这个状态。换句话说,每个状态都是过去历史的一个完整总结。这就是无后向性,又称为无后效性。
一句话总结
动态规划就是保存子问题结果的递归。一维时,将结果存放至一维数组。二维时,将结果存放在二维数组。
我们需要找到出口,一维时为数组的前几个,二维时一般为首行和首列。然后确定状态转移方程,找到dp[i][j]与其他子问题的关系。动态规划考虑前几个状态,常见有前缀和思想。最后,填一维数组或二维数组即可。