https://zhuanlan.zhihu.com/p/110417866
已经很久没有在知乎发文章了,有人可能会问为什么不好好维护专栏,多写点帖子?其实,我也想能一直写出帖子。但是,每次提笔又放下了。以前刚接触强化学习的时候,每每有点心得便立刻写成帖子,甚至把帖子当成了学习笔记。可是,现在的心境不同了。每次写出点东西,总是不满意,总是觉得没有抓住问题的本质。而那些我认为本质的东西,现在的研究似乎都没解决。
也许是因为工作关系,个人偏好和价值观在慢慢发生变化,如今已经不再仅仅是技术崇拜,而更喜欢那些触及问题本质的东西。所以过去一直在追根溯源,于是追到了(随机)最优控制,追到了随机过程,追到了近似动态规划,追到了重要性采样,追到了概率优化……追溯还没有完成,这是一个不断追寻和探索的过程。目前的体会是强化学习就像是一个黑洞,它在不断地吸收着各个学科发展的精华,其他相关学科的发展都能为其所用,其目的就是能更高效地让智能体变得更聪明,在各方面超过人类,进化成为远超人类智慧的超级智能体……
而当前,我们正处在这样一个创造超级智能体的时期。
正因为强化学习是多学科交叉而成的,这就导致入门强化学习并非一蹴而就的事情。到底从哪里开始学起呢?这是初学者最关心的事情。
另外,强化学习最近几年随着AlphaGo的出现,在学术界和工业界如日中天,每年关于强化学习算法的论文数以万计,在这些论文中各种算法被提出来,如强化学习领域非常受欢迎的DQN,策略梯度算法,PPO,DDPG,SAC等,这些算法到底有什么关系?
本周二(2020年3月3号)晚7点,我将通过直播平台与大家分享我的一些思考,欢迎大家前去收看和讨论。直播链接为:https://appQTULvsIE4217.h5.xeknow.com/st/2GDpvT49W。
另外,《深入浅出强化学习:原理入门》的姊妹篇《深入浅出强化学习:编程实战》已经在京东和当当网上预售,欢迎小伙伴们购买、学习、批评和指正。
PS:关于新书,其内容并不新,市面上已有不少相关的书。这本书与《原理入门》一脉相承,内容互为补充,希望通过这两本书能帮助初学者快速入门。还望各位多多支持,一起探讨。