对话生成:深度强化学习 Deep Reinforcement Learning for Dialogue Generation
强化学习的目的是:构建状态到行为的函数。
当前状态、动作、奖励(惩罚)函数