KNOWROBSIM — Game Engine-enabled Knowledge Processing Towards Cognition-enabled Robot Control
0. 摘要
AI知识表示和推理方法将动作视为黑匣子,从其执行方式中抽象出来。该抽象视图不足以满足机器人代理程序要完成操纵任务所需的决策能力。这样的机器人必须思考如何倾倒而不溢出,在哪里握住锅,如何打开不同的容器等等。为了实现这种推理,必须考虑如何感知对象,如何执行和参数化运动以及参数化运动如何影响动作的物理效果。为此,我们建议使用KNOWROBSIM来补充和扩展符号推理方法,KNOWROBSIM是基于现代游戏引擎技术的附加推理基础结构,包括通过数据结构进行的亚符号世界建模,基于物理引擎的动作模拟以及世界场景渲染。我们演示了KNOWROBSIM如何执行强大的推理,预测和学习任务,这些任务是在对象操纵中做出明智决策所必需的。
1. 介绍
目标导向的对象和物质操纵是智能代理的标志[1]。 在人类进化过程中,人类大脑的大小必须急剧增加,才能满足胜任物体操纵的要求。 为了迎接新的挑战,人脑还必须发展新的认知能力并大大提高现有的认知能力。 这种认知能力的例子包括开发更强大的动作表示[2],语言和动作的共同开发[3]以及更强大的动作心理想象机制[4]。
我们认为符号推理是必要的,但不足以实现掌握对象操作任务所需的全部推理功能。 因此,我们建议用一个附加的知识系统来补充符号知识的表示和推理系统,该系统可以执行亚符号推理任务,包括视觉想象力,动作的心理模拟,观察学习以及对有关物体的亚符号信息的语义检索, 物质,动作,动作及其物理效果(见图1)。
KNOWROBSIM知识处理系统的关键优势在于,它通过符号表示统一了出血边缘推理机制的集合,这些细节在细节级别上可以实现具体化主体的控制级别推理。机器人代理应该通过访问引擎的世界状态数据结构,用符号名称注释相关数据结构并断言有关这些数据结构及其符号的事实,来断言他们对游戏引擎中的世界的信念状态是KNOWROBSIM“世界状态”。 关系。 推理机制可以将世界状态视为(虚拟)符号知识库,其中游戏引擎的机制(即数据结构检索,物理模拟和渲染)是必不可少的推理机制。
为了实现这种运动认知推理系统,本文做出了以下主要贡献:
一种称为KNOWROBSIM内部世界的计算基础结构,可以生成并维护机器人环境的近似,逼真的图像和具有物理功能的副本。 然后,该数据结构进一步用作具有语义信息检索语言的混合知识库。 基础结构提供并维护语义环境和场景模型以及详细的位置,方向和状态信息。 该基础设施还使用世界状态数据结构实现了用于机器人控制的运动和图像级别的虚拟混合符号/子符号知识库。
一种将KNOWROBSIM内部世界中的情节解析为以一阶时间间隔逻辑表示的分层符号动作模型的机制。
一种用于从环境中捕获图像的基础架构,旨在执行各种推理任务,例如遮挡分析和其他类似的视觉方面。
一个用于在KNOWROBSIM内部世界中执行视觉引导控制程序的界面,其使用的程序类似于在真实机器人上执行的程序。
一个知识获取组件,可以从虚拟环境中的人类动作演示中学习常识和自然的物理知识。
2. 概览
图2显示了基于游戏引擎的系统的软件架构,该系统是KNOWROB 2.0知识处理框架的一部分[5]。 出于本文的目的,游戏引擎处理可以从外部控制的一个或多个代理,以及通过基于刚体和基于粒子的物理引擎实现的,具有根据物理定律演化的对象和物质的环境。
知识处理系统的核心组件(称为“内部世界”)执行以下步骤的基本循环:(1)更新代理的动态状态(例如,将控制信号发送到机器人代理的联合电动机),可能会有 也会改变世界状态的世界流程(例如,其他不受控制的代理),(2)根据当前状态以及由代理和世界流程生成的控制输入来更新世界状态(根据 通过物理模拟实现的物理定律),以及(3)可视地渲染更新的世界状态。 该循环将演变为虚拟世界状态,可通过游戏引擎的应用程序编程接口对其进行访问。
核心被状态和事件抽象层包围。 状态和事件抽象层将世界状态抽象为一种表示形式,可以促进自然的物理和定性推理[7]。为此,该层自动计算物理和空间关系以及力动态事件。 自然的物理关系的一个例子是支持关系。如果对象O在物理上稳定,与对象S接触并在对象S上方,则对象O受对象S支撑。其他关系包括门和容器的打开或关闭,物质的溢出等。触摸是力-动力事件的一个示例 ,当手与另一个物体接触时发生。 力-动力事件的检测对于识别动作并将其分割为运动阶段至关重要。 例如,抓握和提起物体的特征在于手触摸物体,保持与物体的接触,并且物体失去与其支撑表面的接触。
状态和事件抽象由知识表示接口层使用,该知识层提供了用于活动解析和记录,查询回答,语义环境模型提取以及虚拟图像捕获的模块。活动分析和记录模块将带有时间戳的世界状态流与代理的抽象世界状态,力动态事件和运动事件一起获取,并生成以一阶时间间隔逻辑表示的符号活动表示。符号活动表示与亚符号流数据在时间上同步,亚符号流数据包括主体和对象的姿势和形状以及图像。 语义环境提取模块映射世界状态的数据结构,并为每个相关对象及其部分符号名称,标签类别,部分层次结构,清晰度链和模型以及其他相关符号关系断言( 图3)。虚拟图像捕获模块可以将相机放置在游戏环境中,访问其场景的内置(延迟)渲染信息,例如颜色,深度,镜面反射等图像数据,并通过将图像分段为对象并用它们相应的符号名标记来进一步扩展 。
知识表示模块层周围是认知能力层。 该层包括KnowRob查询应答服务,机器人感知组件,用于动作心理模拟的组件,用于从虚拟现实演示中学习的组件以及用于从虚拟体验数据中学习动作模型的组件。
在本文的其余部分中,我们将更详细地说明启用游戏引擎的知识处理的组件。
3. 内部世界的实现
现代游戏引擎技术已经达到了前所未有的复杂性和效率水平。 这项技术用于计算机图形学,视频游戏或动画电影等领域,通常使用物理引擎:该软件提供对某些物理系统的近似仿真,例如刚体动力学(包括碰撞检测),软体动力学和粒子模拟。诸如Nvidia的PhysX和FleX之类的物理引擎已经达到了一定的性能水平,使我们能够以精确度和真实性来仿真操纵动作,从而足以为仿真中的机器人控制中的许多子问题开发软件,而不需要实际的物理机器人经验[8]。如今,游戏引擎可以以高达90hz的更新速率(通常是VR应用程序所需的速度)模拟和渲染复杂的场景,这些模拟环境可以扩展到大型开放世界(数百平方公里),同时保持能够 在树上显示逼真的叶子,在田野上显示单片草叶[9]。 最终,物理引擎的计算资源需求下降了,因此它们可以在诸如智能手机之类的设备上以及在现代Web浏览器中运行。
这些发展的结合使我们达到了这样一种程度,即可以很容易地在执行时运行物理引擎作为机器人控制程序的组件。这使机器人可以通过近似的物理模拟来维护其环境的逼真的模型(参见图3)。通过访问此类模型的数据结构,它可以使机器人检索有关其世界的详细子符号信息,以心理方式观察场景并模拟动作执行。环境的大小,对象的数量和详细程度的建模方式远远超出了符号知识服务迄今为止可以提供的范围。
通过将基于游戏引擎的知识处理与符号知识处理相结合所获得的一个优势是,机器人可以动态地构建问题特定的摘要。 例如,可以通过与支撑表面(例如,它在桌子上)的接触来检索杯子的位置。 或者,如果需要,知识处理系统可以推断杯子的详细姿势,重量,填充水平等。
从游戏引擎使用物理引擎的局限性在于,必须同时进行许多物理上稳定的接触,这是抓握稳定性分析所需的[10]。 对于这种应用,由于效果的近似,模拟很容易引起数值不稳定。 精确的模拟还需要非常精确的关节物体模型(例如机器人)。 不正确的建模会迅速导致数值不稳定,例如由于自碰撞。 另一方面,由于技术领导者[8]开始将机器人仿真和学习作为应用领域,因此,它有望在机器人特定的仿真要求方面取得实质性的进步。
4. 状态和事件抽象
在虚拟世界中,控制世界演变的物理学是隐含的:在每个模拟周期中,数字物理学定律适用于所有事物,以计算下一时间步的状态。 相比之下,对感知场景的物理解释已深度集成到人类的感知系统中。 如果我们发现没有支撑物的重物也不会掉落,我们会立即得出结论,该物体将被固定在其后面的墙上。 如果一个物体在另一个物体的顶部而不动,我们可以推测它由另一个物体支撑。 我们通过生成有关对象和代理之间相互作用的力的解释来了解世界。
塔尔米[11]在认知语言学中也提出了实体之间的力相互作用的作用,他建议通过诸如力的施加,对这种力的抵抗和克服这种抵抗,力的阻挡和这种阻挡的消除等概念来表征情况和行为。 以及消除此类障碍等。 力动力学将“原因”分析为更精细的基元,并将其自然地设置在框架中。 因此,力的动态状态和事件可以为天真的物理学理解世界打下坚实的基础。
为了在我们的知识处理系统中实现类似的概念设备,我们必须基于对物理模拟中发生的情况的监视来自动断言各自的关系。 为此,我们在游戏世界中建立了各种节点,这些节点不断监视这种关系。 当发生相应的事件时,这些事件将触发该事件的符号表示在知识库中的声明。
一个基本的监视节点正在侦听联系人事件,也就是说,每当相关对象开始或结束物理联系人时。 该节点可以进一步扩展以用于更特定的事件,例如,supported-by事件,该事件还检查受支持对象是否稳定并且位于受支持对象的顶部。 对于抓握事件,监视节点检查手掌和/或手指与抓握的物体之间是否接触,以及是否将物体固定在手中。 另一个示例是用于铰接模型状态的监视器,例如,每当门/抽屉被打开/关闭或旋钮/按钮被旋转/按下等时触发。
将数据转换为符号抽象的其他机制包括对手-对象交互的解释,抓握类型的分类,运动模式的解释(例如,行走)以及运动特征的抽象(例如,使容器保持直立) )。 另外,需要解释对象及其结构。 这包括推断对象的部分层次结构(partonomies)和诸如门,抽屉,旋钮,盖子等对象的连接模型。
5. 知识表示接口层
下一层将建立更复杂的混合知识表示结构和查询回答机制。
A. 语义活动解析
支持游戏引擎的知识系统的关键机制是将内部世界中模拟的动作和事件自动转换为适当的混合,符号-子符号活动和事件表示形式。
认知科学家研究运动阶段的动作组织,以及对感知事件和预测的期望如何使人的运动认知帮助如此有效地完成操纵任务。 图4显示了Flannagan等[12]提出的模型,该模型构成了我们的知识表示的基础。 它把动作组织成运动阶段,其中阶段具有子目标,这些子目标是力动态事件,还产生独特的感觉反馈。 电机认知和机器人控制概念化了运动参数的参数化和优化,使机器人能够产生所需的物理效果并避免不必要的效果。
此外,对认知语言学的研究[11]表明,动作动词的语义可以以力动态事件为基础,动作动词的语义可以通过力动态事件的动词特定的时间模式来定义。 这意味着,通过检测力动态事件并将其分类,可以解释内部世界的演变的活动分析器可以自动识别动作,对其进行分类并将其分解为运动阶段。
然后,将所推断的动作模型表示为一阶时间间隔逻辑中的语句。 图5描绘了获取和放置事件的活动表示。该图显示了操作员在虚拟厨房环境中从冰箱中取出牛奶,将牛奶倒入碗中,然后再次放回冰箱中。
活动语义不能直接监视。 取而代之的是,我们检测到虚拟现实的物理引擎中的力动态事件,例如人的手与冰箱门把手接触,牛奶包装与架子的接触结束以及牛奶颗粒从容器移动到碗中。 所监视的事件会在符号知识库中得出有关事件的发生,事件的类型以及所涉及的实体(例如接触的对象或倒入碗中的牛奶颗粒)的断言。 关于事件的事实可能涉及描述虚拟现实世界的符号,例如存在的物体,它们的部分以及人类的自我模型。 基于一阶逻辑的虚拟世界表示直接映射到游戏引擎使用的数据结构,该数据结构允许将虚拟世界与其语义描述同步,并根据知识库中的事实产生新的世界。
记忆力动态事件的时间模式决定了所记录活动的运动阶段。 到达运动由物体与手接触来指示,如果物体在离开支撑表面的情况下保持与手的接触,则会发生(成功的)抓握运动。 操作人员将牛奶倒出,以便根据与离开牛奶包装的第一颗粒相对应的力动态事件确定第一运输运动阶段。 此外,我们可以说从第一个粒子开始发生倾倒运动,最后一个离开奶包的粒子结束了倾倒运动。 最后,我们可以说第二运输运动阶段结束时,牛奶包装再次与架子的支撑平面接触。
运动阶段的符号表示用作noSQL数据库的搜索索引,该数据库存储大量数据,例如渲染引擎生成的对象的姿态和图像。 通过浏览符号表示,可以访问与运动阶段相对应的大量数据。 为此,我们在符号知识库中使用了程序挂钩,这些挂钩定义了为按需进行推理任务按需抽象大量数据的特定方式。 例如,这对于定性空间推理是有用的,在定性空间推理中,某些空间关系的存在仅与特定时间间隔有关(例如,在某个运动阶段)。 该数据可以进一步用作所记录活性的更具体分类的证据(例如,如果倒出或挖出了颗粒)。
B. 查询答录
KNOWROBSIM提供的另一项基本信息服务是语义查询的回答。 许多查询具有类似的结构。 他们使用符号高级查询推断一个动作(或对象),然后使用该动作的名称推断该动作开始和终止的时刻,并使用该时刻检索子符号信息(例如姿势) 对象和代理在相应的时间间隔或在相应的时间间隔内移动)。
让我们考虑以下示例查询,以更好地了解这些查询的性质和推理能力:
该查询在提供的部分说明包含的有经验的情况FP中导航,并检索情况发生的时间间隔。 重要的是要注意,部分描述扩展为一阶逻辑公式,并且搜索了发生的变量的可能绑定,以使相应的公式成立(即,该描述所包含的实体)。 包含层次结构还允许查询更一般的概念(例如末端执行器),而不是更具体的概念(例如模拟的手)。
实体描述包括符号约束的有序序列,匹配实体必须满足这些约束。 在这种情况下,匹配实体必须是某个对象O和在其间运输对象的接触末端执行器之间的接触情况。 时间谓词上的姿势表示给定时间戳下末端执行器的子符号数据(姿势)。 期间的时间谓词显示了KNOWROBSIM中查询回答的另一个优势:它的存在事先未知,但是可以在查询时使用对知识库中的事实进行操作的规则(在这种情况下,使用艾伦的区间代数[13])证明。谓词计算规则不一定需要严格遵循一阶逻辑形式主义,而可以仅进行常规计算,但最终需要将一些数据抽象为知识库中的谓词符号。 这种机制使KNOWROBSIM不仅可以使用异构且大量的数据源进行推理,例如渲染的虚拟现实图像流或人类操作员随时间记录的姿势,还可以使用接口推理技术(例如时间推理或语义) 活动解析。
示例查询也可以解释为获取和放置活动的解析器。 将末端执行器与对象之间的任何接触情况分类为简化视图,在此期间将对象作为获取和放置活动进行运输,但是它已经捕获了特征力动态事件。 这种简单的规则旨在定义一些有关发生情况的相当抽象的事实,而更专业的活动解析器可以将这些一般描述改进为描述更详细细节的更具体的描述。 例如,我们可以说,将某些颗粒从一个容器运输到另一个容器的取放动作可以归类为浇注活动。 可以通过以下方式将此活动解析器编写为查询:
KNOWROBSIM中查询回答的强项之一就是可以根据可用的原始数据(例如随时间记录的手和物体的姿势)推断出知识。 例如,在倾倒过程中,牛奶包装需要倾斜并固定,以使流体可以流入碗中而不会溢出到柜台上。 诸如倾斜角度之类的运动参数并未明确记录,但可以在查询时使用一些进入符号知识库的空间推理钩子进行计算。 倾斜角的计算方式为容器与水平面之间的角度,对于特定的时间点(在这种情况下为浇注运动的结束),可以使用以下查询来计算:
C. 虚拟相机
推理操作的另一个主力军是KNOWROBSIM虚拟相机基础架构。这种基础结构使机器人可以为虚拟相机确定6D姿势并捕获渲染的虚拟世界的图像。如图6所示,相机不仅返回捕获的图像,而且还返回场景中描绘的每个对象的地面真相分割以及相应的符号对象名称。 图6中显示了一个示例,该示例描绘了捕获的图像(场景),对象分割的地面真相(对象遮罩),牛奶纸箱和牛奶瓶在其前面的重叠部分(重叠区域)以及牛奶纸箱的非遮挡部分(可见纹理)。 捕获图像的这些不同视图是通过游戏引擎的渲染机制自动高效地计算的,并且可以通过使用GPU大大加快。
使用虚拟相机基础结构,KNOWROBSIM可以回答诸如假设将相机放置在位置x并将其指向d方向的查询,然后KNOWROBSIM可以回答诸如(*)哪个对象挡住牛奶纸箱?(*)的查询。 可见多少牛奶盒?,(*)可以使用基于SIFT功能的对象检测器检测牛奶盒吗?,(*)牛奶盒上的文本可读吗?,依此类推。
D. 在内心世界执行计划
第四个功能是在感知指导下执行机器人计划。 我们认为计划是可以执行,推理和修改的机器人控制程序[14]。 KNOWROBSIM为用户提供的机器人计划解释器提供了虚拟摄像头捕获的图像流,这些虚拟摄像头位于真实机器人摄像头的相应位置。这样,KNOWROBSIM可以模仿机器人在现实世界中捕获的图像。 此外,知觉引导的执行可以发布可通过内部世界的代理运动控制实现的参数化运动规范。 因此,通过发布参数化的运动控制命令,执行模拟步骤,渲染最终的世界状态以及从机器人的摄像机角度捕获图像,心理计划模拟器可以运行非常详细且逼真的机器人感知动作循环。 另外,执行计划时世界状态的演变可以通过第V-A节中描述的语义活动解析进行细分和解释,从而生成想象活动的符号知识库。
在当前的实现状态下,我们只能执行简化的心理模拟版本,即对象的受控运动和简单的机器人手的控制。 我们目前正在为完整而复杂的移动机器人操纵平台实施仿真和虚拟控制模型。
6. 推理预测和学习
现在让我们考虑如何使用KNOWROBSIM表示和推理基础结构来实现认知能力。
A. 从观测中学习
在游戏环境中观察人类规模的操纵任务可以收集各种常识和天真的物理知识。 这些知识被人类广泛使用以成功地完成任务,并且可以被机器人代理用来填补由于指令不完整而导致的知识空白。 例如,机器人可以学习用于搬运打开的容器的运动约束,而不会溢出容器中的物品。 可以进一步将这些约束参数化,以取决于容器的填充水平或所执行的任务。
通过监视和观察力动力学状态和事件,我们可以学习广义的动作和运动模型。例如,通过运行多个模拟并学习预测成功的分类器,机器人的站立位置才能成功拾取物体[15]。实体之间的力相互作用模式的识别导致各种动作的表征和分段。例如,从提取和放置动作获得的通用提取模式将具有以下交互序列:(1)与表面接触的对象,(2)与对象接触的手,(3)附着在手上的对象, (4)表面与物体之间的接触破裂。通过打开和关闭冰箱门的相互作用来扩展上述顺序,我们可以认识到将牛奶从冰箱中取出的动作。通过计算相关力动态状态和事件的多个序列,推理基础架构可以识别更复杂的动作并将其划分为相关的运动阶段。
B. 心灵的推理
1)学习与动作相关的概念:每天执行操作任务的机器人都可以从执行前预测动作后果而受益匪浅。 对内心世界模型进行“观察”模拟的一个优点是能够在执行之前预测结果。 对此的主要要求是能够在具有物理功能和真实感的内部世界模型中运行。 当前,在游戏引擎中生成具有复杂运动学结构的机器人模型方面仍在进行中。 在[16]中,作者演示了机器人如何使用KNOWROBSIM内的PROLOG查询来形式化其仿真目标,并作为响应,知识库会生成具有所需世界和参数的仿真,并执行相应的计划。
在高级模型中,表现自我并能够在内部模型中使用自己的控制和计划系统进行操作具有各种优势。 首先,它可以提示在实际执行之前哪些参数将导致成功的结果。 其次,由于机器人使用类似的控制执行程序,因此会从仿真中生成类似的情节记忆,以供以后进行推理。 最后,它可以生成用于训练分类器或其他机器学习工具的数据。
2)机器人的感知能力:机器人还可以利用他们的“头脑”来增强感知能力并提高其目标信念状态的分辨率。 游戏环境中对象信念状态的产生和维护将提供许多可能性,例如在操纵后的场景外观与机器人如何“想象”它的外观之间保持稳定的联系。 另外,它还可以估计由于诸如遮挡或视线消失等原因导致感知失败的物体姿势。
7. 评估,讨论和相关工作
A. 评估
作为AI知识表示和推理(kr&r)系统,对KNOWROBSIM的适当评估是针对此类kr&r系统的所需属性进行评估,以显示KNOWROBSIM在这些属性上的改进之处,并说明原因。 经验评估不适用于评估,因为它们评估KNOWROBSIM所基于的工具(即模拟和渲染方法),而不评估KNOWROBSIM本身。kr&r系统经常使用的期望属性是:代表性足够,推断足够,推断效率和获取效率。 代表性是否足够,评估了kr&r系统代表操纵控制所需知识的能力; 推论充分性涉及从所代表的知识中推论对相关查询的答案的能力; 推断效率评估了回答查询所需的计算资源,最后,获取效率考虑了kr&r系统如何支持新知识的获取。
KNOWROBSIM在表示上比AI动作表示更合适,因为AI表示系统做出了所谓的原子状态转换系统假设[17]。 KNOWROBSIM还表示基础动态系统的“连续”流动,包括运动,瞬时力-动力事件,以及由运动参数变化引起的物理效应变化。 这些方面的表示对于对象操纵的胜任推理至关重要。
KNOWROBSIM在推断上也更合适,因为我们可以制定和回答有关AI动作表示无法处理的操纵动作的查询。 我们将给出这样的查询的两个示例,但是任何关于由操纵动作,力动态事件产生的运动的查询,以及在假设原子态转换系统为假设的kr&r系统中,都无法处理运动及其效果之间的关系。
例如,我们为浇注轨迹生成器收集负训练集。 当桌子上有溢出物时,我们可以将浇注轨迹视为失败。 在KNOWROBSIM中,我们可以通过在浇注过程中检查流体颗粒与餐桌之间是否存在接触来检测这种溢出。 因此,PROLOG语法中的查询如下:
前面显示了与图5相关的另一个示例。
KNOWROBSIM还具有推理效率,因为它使用物理模拟和渲染引擎作为推理机制。 物理模拟和渲染是GPU加速的推理机制,与已证明在状态转换图中生成巨大搜索空间的AI方法相比,它可以更好地朝实际动作投影扩展。 KNOWROBSIM的获取效率也很高,因为我们可以扩展游戏环境的创建过程,使其自动创建KNOWROBSIM环境表示形式。
B. 讨论
许多研究人员质疑模拟作为机器人行为模型和物理效应预测模型的有效性,因为模拟的准确性不够[18]。 我们认为,由于以下几个原因,该结论是无效的。
首先,在没有物理模拟参数的详细知识的情况下,人类通常也会做出有益的预测。 例如,当人们预测倾倒的效果时,他们不需要知道瓶子内液体的粘度。 其次,通常可以在不需要详细物理学知识的状态空间中学习或做出预测。 例如,不是根据流体粘度来预测将煎饼混合物倒入烤箱的效果,而是可以根据煎饼的形状如何变化来表示预测模型。 在这种情况下,将粘度编入煎饼尺寸的增长率。
从仿真转移知识并将其应用于实际执行环境的另一种可能性是在执行时识别适当的模型。 游戏引擎环境在学习现实世界机器人控制中的使用也开始获得动力[19]。
C. 相关工作
Polceano和Buche [20]对计算心理模拟进行了全面的回顾,该模拟将拟议的方法根据其功能角色进行分类,并将其与认知科学研究联系起来。Ullman等人[21]提出了用于直观物理的游戏引擎,该引擎对自然场景描述,场景图像,内存等进行了分配,针对从各自分布中采样的一组场景进行物理模拟,并对模拟分布中的知识进行概括。 从概念上讲,他们的方法与我们的方法最接近。相反,KNOWROBSIM实现了更广泛的认知推理能力,并提供了与符号推理框架的适当集成。 Feldman和Narayanan [22]提出了一种语言神经理论(NTL),其目的是提供一种基于模拟的自然语言句子的解释,该解释基于心理模拟动作动词。KNOWROBSIM专注于行动,但使用的是基于物理模拟而不是Petri网模拟的更精细的模拟模型。 Billing等人[23]提出了一种机器人,该机器人生成与环境的感觉运动相互作用的内部模拟,并使用这些内部模拟通过模仿学习来概括和重现所演示的行为。同样,KNOWROBSIM提供了更广泛的认知推理功能,并且提供了基于逻辑的知识表示的适当接口。 W¨achter等人[24]提出了一个框架,允许机器人在动态环境中用自然语言解决复杂的任务。 该框架提供谓词,将感觉数据抽象为离散的符号,将状态描述为AI表示。 我们的谓词还包含亚符号数据,例如抓握时的手的姿势,物理力值,家具状态包括张开角度,容器中存在的物质量。
8. 总结
在本文中,我们提出了KNOWROBSIM,这是一种知识处理基础结构,可让机器人代理在对象操纵的图像和运动级别上进行推理,计划和学习。 我们建议使用游戏引擎的数据结构作为知识系统的实现基础。 数据结构用符号名注释,这些名称是链接的本体和符号背景知识。 同时,与符号名称关联的数据结构允许访问子符号信息。 此外,还对游戏引擎的物理引擎进行了检测,以检测力动态事件,这对于自动识别动作并将其分割为运动阶段是必不可少的。 通过示例查询,我们证明了所提出的知识系统可以回答对于有效执行操纵动作必不可少的查询,而就我们所知,操纵动作是其他机器人知识系统无法回答的。