以行为主义为主导的语言学习理论认为,语言学习是学习者对外界刺激作出反应的结果。据此,语言环境和刺激强化对语言学习起着决定性的作用。这是因为,人脑能对外界语言刺激形成记忆,从而掌握语言。如上所述,强化学习的基本理念是使用奖励期待(类似刺激)强化正确的行为。此外,当奖励预测误差趋近于零时,强化学习达到最优状态。在此意义上,强化学习也可以说是通过试错,归纳得出最小化的预测误差。更引人注目的是,哈萨比斯等最近在《自然》杂志上尝试以强化学习算法阐释人脑学习过程时指出,人工智能视角下的分布式强化学习,似乎可以依靠多巴胺这类能够促进实现奖励预期的神经递质,在人脑中实现。简而言之,如果行为达到奖励预期,获得正向的多巴胺信号,则促成正确的学习决策。
然而,人类学习语言就如乔姆斯基语言习得理论主张的那样,是一个演绎性过程。学习者在学习语言结构时提出某种假说,然后依据原始语言数据输入进行假设检验,修正或证实有关目标语言结构的假说,完成语言习得。这一过程看似与强化学习中的试错归纳学习有类似之处,但它是对先前假说的验证过程,而非归纳学习过程。尤其对于儿童获得母语而言,类比归纳学习是否奏效一直受到质疑,而从内在语言机制生物性成熟的角度解释语言习得,则得到了更多神经生物以及经验研究的证实。
但这并没有具体说明儿童快速习得母语的具体过程。换句话说,语言本身作为一个非常复杂的自足系统,有关这一复杂系统的习得理论,必须严肃阐释儿童怎样快速、一致地获得诸如结构层级性之类的语言本体属性。虽然多巴胺此类神经递质在语言习得过程中的确促成相关神经实现,但这只是语言习得的神经生物基础的具体表现。更重要的问题是,怎样立足语言的神经生物基础妥当解答语言习得的具体过程。
再次,虽然强化学习亦有从心理学角度考察语言学习的过程,但人脑有限的计算加工能力是否能够像机器及其算法模型一样,具有超高的容量与超强的计算能力,是值得仔细斟酌的。从有关大脑的神经生物属性研究来看,人脑的认知计算加工能力远不及机器。因此,人类语言学习与基于算法的机器学习之间的区别一时难以消弭。