摘要:
现有的研究大多将脑电图视为链状序列,忽略了相邻信号之间复杂的依赖关系或需要复杂的预处理。
在本文中,我们引入了两种基于深度学习的框架和新颖的保持时空的原始脑电图流的表示,以精确地识别人的意图。
这两个框架由卷积神经网络和递归神经网络组成,它们以级联或并行的方式有效地探索保存的时空信息。
所建立的模型与真实脑型脑接口进行了进一步的评估,五种以上指令意图识别准确率达到93%以上,表明该模型对不同类型的意图和脑接口系统具有良好的泛化性。
引言:
第一段
脑机接口的应用:严重运动障碍的人[1-3]、健康人的情感识别[4-6]、脑控轮椅[7-9]、机器人[10-12]
脑电图(EEG)信号是很容易获得的便携式,成本效益,和无创的方式。它们还具有高时间分辨率,允许实时操作。 鉴于这些优点,脑电信号被认为是实现脑机接口系统最实用的途径之一。
当一个人想象自己移动身体的不同部位或对仪器发出不同的控制指令时,从他的头皮收集到的脑电图信号显示出不同的波动模式,由此可以了解人类的意图。
第二段
现实世界中基于脑电图的脑机接口系统仍然不成熟,因为各种各样的开放挑战。首先,脑电图信号通常有大量的噪声。脑电图信号除了存在典型的感觉系统噪声,如电源线干扰或电极连接不当等外,还存在一些独特的不可避免的噪声。例如,在记录过程中,采集高信噪比的脑电图信号,眨眼、肌肉活动、心跳等生理活动都是有害的。有研究表明,受试者的议程或情绪也会对脑电图信号[13]产生不确定性。很难确保参与者在整个实验期间集中精力完成任务。此外,一个典型的基于脑电图的脑接口系统通常有8-128个信号通道,因此与图像或视频相关任务相比,信号分辨率有限。第二点,脑电图信号与其对应的大脑活动之间的相关性不明确。身体的动作可以通过监测加速度计或陀螺仪很容易解释,但通过直接观察脑电图信号并不能直接推断意图。第三,广泛使用的基于eeg的意图识别方法严重依赖于手工制作的特征,在做出预测[14]之前需要大量的预处理。有些方法包括两个一般的分离阶段:1)特征处理和2)识别阶段。第一阶段通常需要复杂且容易出错的手工工程特性,因此,整个框架非常耗时,并且高度依赖于在阶段1中获得的特定于领域的特性。最后,目前的研究主要集中在对象内部(测试数据和训练数据来自同一受试者)[1]或二值脑电图信号分类[16]场景。很少的研究已经进行了交叉学科,多类场景,这是高度期望的实际BCI应用。此外,即使是在类内分类或二值分类场景下,许多现有的作品也只能达到80%左右的精度。
第三段
深度神经网络技术不需要手工制作特征或领域知识,只需少量的预处理就可以直接利用原始脑电图数据,从而引发了基于脑电图的脑接口研究[17]-[20]的爆炸。但这些方法要么仍涉及复杂的预处理步骤,如将脑电信号转换为图像[17],要么忽略了脑电信号[18]、[19]所包含的细微的时空信息,因此,复杂场景下的识别精度仍有很大的研究和提高空间
第四段
原始脑电图数据记录一个1-D矢量,其中每一项表示每个时间戳对应的电极读数。这样一个一维矢量的每个元素最多有两个相邻的电极。然而,我们可以很容易地观察到,每个电极在物理上与多个电极相邻(图1)。
图一:脑电图数据采集过程及时空信息保存转换。首先使用多电极脑电接口头戴式设备捕获脑电图信号,并记录为时间序列向量。然后根据BCI耳机的电极图将这些矢量转换为二维数据网格。最后利用滑动窗口技术将转换后的二维网格分割为剪切。
因此,链状一维脑电矢量在结构上局限于大脑活动与相应脑区之间的丰富联系。脑电图的描述需要更丰富的信息,以表示分布的神经生理过程与相应的脑电图信号变化之间的丰富关系。
第五段
为了解决上述问题,我们将传统的一维矢量脑电图格式转换为二维网格状脑电图信号层次结构,将脑电图记录与脑电图采集电极的位置信息进行映射,对相邻脑电图信号与相应脑区之间的相关性进行排列。其次,开发了两种卷积递归神经网络框架,分别从空间维度和时间维度对鲁棒性脑电信号进行序列和并行解码。所提出的模型是统一的、端到端可训练的模型,具有较好的泛化能力,适用于更复杂和实际的场景(跨主题、多类场景)。级联和并行框架在识别运动意图时都能达到接近98.3%的高精度,比目前最先进的方法高出近18%。建立了不同的基线模型和不同的模型,以系统地研究时空信息的影响以及模型的参数敏感性。我们还在一个真实的脑机接口系统上评估了我们的模型,并获得了在有限的脑电图通道下识别五种指令意图的93%的令人满意的准确性。这表明我们提出的模型具有使用不同BCI系统识别不同类型人类意图的鲁棒能力。
本文贡献:
A:我们提出将原始脑电信号序列转换成网格状的集合,在脑电信号采集过程中可以捕获并保留局部的空间关系和时间演化。
B:我们统一介绍了深度神经网络的两种思想流派,包括基于脑电图的人类意图识别的卷积神经网络和递归神经网络。我们的统一框架可以有效地从转换后的层次表示中学习时空显著性。
C:该框架在大规模脑电数据集上进行了广泛的评价,用于跨主体、多类场景下的运动意图检测。实验结果表明,我们的方法优于基线和最新的方法。
D:一个电脑打字领域的脑机接口原型系统被开发,以证明我们所提出的脑电表征方法和深度学习模型在实际应用中的可行性和灵活性。
本文的其余部分组织如下。第二部分回顾了与脑电图信号分析相关的现有代表性工作。在第三节中,我们将描述我们建议的框架的细节。第四节介绍了实验结果以及一个真实的案例研究与我们自己的脑机接口系统。最后,第五部分对本文进行总结。
第二部分相关工作
大多数脑电分析方法包括两个部分:1)特征提取和2)分类。特征提取通常包括空间滤波和时间滤波。常用空间模式(CSPs)及其变化是目前脑电空间滤波算法[22]-[24]中应用最为广泛的一种方法。
(1)Wu等[25]提出了一种概率CSP作为通用的脑电时空建模框架,成功解决了CSP的过拟合问题。将多频带通滤波器与CSP相结合的滤波器组cbcsp (FBCSP)在几种脑电信号译码竞赛[26]中具有较好的竞争性能。
(2)在分类器组件上,脑电分类[18]、[27]、[28]常用的是传统的线性判别分析(linear discriminant analysis, LDA)、支持向量机(support vector machine, SVM)以及树集成算法(random forest, RF)和XGboost。
(3)Qi等[29]报道了一种由l2正则时空CSP和稀疏Fisher LDA组成的空间滤波、时间滤波、特征选择和分类的正则时空滤波和分类框架,在三个BCI数据集上表现出了优越的性能。
传统的方法虽然能获得令人印象深刻的结果,但它们不仅分离了特征提取和分类阶段,而且严重依赖于手工制作的特征,这些特征需要领域知识和丰富的经验,例如选择相关频带或EEG节点。深度神经网络通过其处理原始数据的令人印象深刻的能力以及具有竞争力的性能[30]-[33]在机器学习社区中展示了它的力量。
(4)最近的一些研究提出了在基于事件相关电位(ERP)的脑机接口上使用深度学习算法。将一种名为ERP- net的深层混合结构引入到ERP脑电分析中,该结构不仅在单次试验分析中有效,而且能够发现新的ERP模式。[34]
(5)Liu等人[35]通过精心设计的具有批处理归一化、dropout和修正的线性单元激活函数的1-D deep CNN,在之前的BCI竞赛数据集上实现了最先进的ERP信号分类和拼写字符识别性能。
其他一些工作也说明了深度学习方法在基于振荡活动的脑机接口的有效性。
(6)Schirrmeister等人[36]对运动图像EEG分类的各种CNN架构进行了探索,通过对架构的精心设计,即使没有时间滤波,CNN至少也能达到与广泛使用的FBCSP算法竞争的性能。
(7)在处理时间序列问题时,特别是在对每个时间步长[37]采用多层处理时,已经成功地证明了神经网络,特别是具有长短期记忆单元的神经网络。
(8)由于脑活动是时间动态过程,利用RNN通过时间序列序列建模脑活动的演变可以为脑活动[38]-[42]的模糊度提供重要信息。
(9)Bashivan等[17]报道了cnn和RNNs联合用于脑电图分析。在预处理阶段,采用频率滤波、数据压缩和插值等技术将原始1维脑电图记录转换为2维拓扑保留的多光谱图像
实验结果表明,使用递归卷积神经网络(RCNNs)进行保持拓扑结构的脑电表征和特征提取是有效的。
第三部分:该方法
在本节中,我们首先描述了原始脑电图信号处理的时空保持表示方法。然后,详细描述了所提出的方法的体系结构。级联模型按顺序提取空间和时间特征,其中数据在一个流中流动。而并行框架则是在原始数据流为两流的情况下,同时提取空间和时间特征。这两种方法从两个方面证明了空间和时间信息在脑电分析中的有效性。
A.将一维脑电序列转换为二维脑电网格
图1展示了本文方法的整体脑电数据采集和时空信息保存过程。以脑电图为基础的脑机接口系统使用一个带有多个电极的可穿戴式头戴式设备来捕捉脑电图信号。图1中的脑电图电极图描述了示例脑机接口耳机的电极放置。原始脑电图信号是一系列一维矢量,每个矢量代表某一时间步长的电极读数。这种一维矢量格式忽略了脑电电极位置的空间信息。因此,我们提出根据EEG电极图将原始的一维矢量格式转换为二维网格层次结构。该二维网格不仅保留了传感器的原始值,而且嵌入了传感器的空间结构信息,如特定传感器的邻域。
从形式上看,EEG信号采集系统在时间指标t时的原始数据是一个一维数据向量,其中是第i个电极通道在时间指标t时的读数数据。采集系统包含n个信道。对于观测周期[t,t+N],存在(N+1)一维数据向量,每个一维数据向量包含N个元素,对应N个电极。
从脑电图电极图可以观察到,每个电极在物理上是相邻的多个电极,它们测量大脑特定区域的脑电图信号,相反,链状1-D脑电图数据向量的元素被限制为两个相邻的。根据脑电采集系统的电极分布,将脑电数据向量转换为二维脑电数据网格。时间戳t时的一维数据向量rt与其对应的二维数据网格mt的变换函数为:
其中,零电极的位置用零填充。通过此转换,得到原始1- d数据向量序列[rt,rt+1,…],rt+N]转换为二维数据网格系列[mt, mt+1,…],mt+N],较好地保留了EEG电极节点的空间信息。观测期间[t, t + N],二维数据网格数仍为(N + 1)。经过二维数据网格变换后,使用Z-score归一化方法对数据网格进行跨非零元素的归一化。每个生成的二维数据网格都包含了记录时大脑活动的空间信息。在记录过程中,由于电导率和被试运动等问题,导致部分EEG读数出现变化丢失,导致部分通道记录零点。这个问题在基于传感器的系统中是不可避免的。从应用的角度来看,BCI系统的顺畅操作提供了更好的用户体验。因此,脑机接口系统最好能连续不间断地将大脑活动转换为输出信息。由于临床存在信息缺失的情况,本文通过保留不完整的记录来保持脑电信号的完整性。实验结果表明,我们的二维脑电网格能较好地处理“缺失读数”。到目前为止,我们使用滑动窗口的方法将流化的二维网格划分为单个的片段,如图1的最后一步所示。这样,一系列的二维网格就形成了三维格式的数据,它是按时间戳排序的等大小的二维矩阵的集合。三维数据网格片段Sj被创建如下:
式中,sj包含S个连续网格,S为滑动窗口大小,j = 1,2,…,q和q段在一次试验中 (只完成一种特定智力任务的连续时期)。我们的目标是开发一个有效的模型a = [a1, a2,…]从每个有窗口的数据片段Sj中来识别一组人类意图,识别方法试图预测在此窗口期执行的人的意图Yt∈A。
B:级联卷积循环网络
我们首先设计一个级联深度卷积递归神经网络框架,如图2所示,捕获空间和时间的结果
模型的输入是二维数据网格(如Sj)的预处理片段,创建包含空间和时间信息的三维数据体系结构。首先提取每个数据网格的空间特征,然后将提取的空间特征序列输入神经网络,提取时间特征。一个全连接的层接收RNN层最后一个时间步的输出,并将softmax层提供给最终意图预测。深度2-D-CNN应用于每个EEG数据网格(每个时间步长)只负责空间特征提取,下面的RNN网络探索多个时间步长之间的关系。第j个输入段为Sj= [mt, mt+1,…mt + S−1)∈RS h××w,S数据网格表示mk (k = t, t + 1,…,t + S−1),和每个数据网格的大小h×w。数据网格2-D-CNN单独输入,和每个解析为一个空间特性表示fk (k = t, t + 1,…,t + S−1)
最后的空间特征表示是由一个包含l个元素的全连通层提供的特征向量。通过二维cnn空间特征提取步骤,将输入段转换为空间特征表示序列
具体来说,有3个相同核尺寸为3×3、相同步长为1×1的二维卷积层用于空间特征提取。在每个卷积层中,我们使用了零填充技术来防止信息丢失。这将生成与原始输入EEG数据网格大小相同的特征图,网格大小为h×w。我们从第一个卷积层开始,使用32张feature map,然后将后面每个卷积层的feature map数量增加一倍,结果在第二个卷积层和最后一个卷积层分别得到64张feature map和128张feature map。在这三个卷积层之后,应用一个有1024个神经元的全连接层,将128个feature map转换为最终的空间特征表示 fk∈R1024。对于将二维cnn的结果输入RNN,这个全连接层是可选的。然而,我们发现这一层对于快速收敛和略微提高整个框架的性能是至关重要的。
将空间特征表示序列Fj输入到神经网络中,计算时间特征。我们使用LSTM单元来构建两个堆叠的RNN层。LSTM是一个改进的RNN单元,解决了梯度消失和爆炸的问题。由于目标是预测主体在滑动窗口期间的思想,因此每一层RNN中都有S个LSTM单元对应于S的滑动窗口大小。下一层RNN的输入是上一层RNN的输出时间序列。第一RNN层的LSTM单元在当前时间步长t处的隐藏状态记为ht, ht−1为前一个时间步长t−1的隐藏状态。来自前一个时间步长的信息被传送到当前步长,并影响最终的输出。我们使用LSTM单元的隐藏状态作为LSTM单元的输出。因此,下一层LSTM的输入序列为上一层LSTM的隐藏状态序列,下一层LSTM的隐态序列为我们尝试了不同数量的RNN层,并选择了两个RNN层作为性能和资源的权衡。由于我们感兴趣的是大脑在整个时段的导向,当LSTM网络观察到滑动窗口的整个样本时提取的特征将用于进一步分析。只有RNN结构的最后一个时间步的输出h‘ts−1,被馈入下一个完全连接层,如图2的最后阶段所示。分段Sj的时间特征表示是其中d是一个LSTM单元的隐藏状态大小,我们保持所有LSTM单元具有相同的隐藏状态大小。采用全连通层来增强最终时空特征的表示能力。在全连接层之上是最终的softmax层,用于生成每个类的最终概率预测
其中,框架的目标是对第j个分段进行K个类别的分类。在2-DCNN阶段和最终的分类阶段,我们在全连通层之后引入dropout操作作为一种正则化形式。
总体而言,级联框架将脑电图记录流转换分割为二维网格的片段,并将每个片段划分为K类之一。每段Sj包含S脑电数据记录,并转换为S二维网格。将二维cnn网格化地应用于一个片段中,提取空间特征[ft, ft+1,…,ft+S−1],然后应用RNN跨数据网格提取时间特征h't +S−1。最后,使用softmax分类器计算每一个片段的K个大脑意图的分类概率。
C并行卷积递归网络
级联结构取决于空间和时间特征提取的顺序。为了消除这种影响,我们提出了一种并行卷积递归框架,并行提取空间和时间特征,如图3所示。
在本节中,我们将描述并行框架的两种变体:1)并行2- d -卷积循环网络和2)并行3-D-卷积循环网络,分别称为并行模型和并行3-D模型。
1) Parallel 2-D-Convolutional Recurrent Network:
并行的二维卷积递归网络结构还包括两个部分,分别用于提取空间特征和时间特征,分别是CNN和RNN。但与级联模型不同的是,并行模型并行提取脑电图信号的时空特征,并融合提取的特征进行最终意图识别。其中,并行模型接收数据流分为两种:1)RNN部分接收原始数据时采用滑动窗口分割,但不进行二维网格变换2)另一方面,CNN部分采用RNN部分相同的数据段,但采用二维网格变换。与级联框架类似,二维cnn只负责空间特征的处理,而RNN部分则负责寻找多个时间步长之间的关系。RNN部分的第j个输入段为
其中rt为时间步长t的数据向量,S为窗口大小。并行模型的RNN部分有两个LSTM层。一个段中最后一个时间步长的隐藏状态也用于进一步的分析
其中v为LSTM单元的隐藏状态大小。在LSTM层之前和之后都使用了全连接层来增强时间信息的表达。因此,来自并行RNN部分的最终时间特征记为
其中l为并行RNN部分最终完全连通的层的大小。负责提取空间特征的并行CNN部分接受网格段Sj作为输入,对每个时间步的二维网格进行二维卷积操作。并行模型的CNN结构与级联模型的CNN结构相同。为了在大小上与时间特征相比较,我们将每一段中每一个时间步提取的空间特征fk(如图3中CNN部分末尾所示)相加为单个特征向量Lj
其中l为CNN部分全连接层的大小。在CNN和RNN部分的全连通层输出后,都使用dropout正则化。同时提取的时空特征融合成时空特征向量。发展了各种融合方法,详细的结果在第四节中显示。softmax层采用融合的时空表征来预测人类意图
在级联和并行模型中的二维CNN部分卷积层都没有池化操作,尽管在典型的CNN体系结构中,卷积操作经常与池操作结合在一起,但它并不是强制性的。池操作通常用于减少数据维,但代价是丢失信息。但是在这个EEG数据分析问题中,数据维数比计算机视觉研究中要小得多,为了保存所有的信息,我们直接将CNN层连接起来,不需要池化操作。
2) Parallel 3-D-Convolutional Recurrent Network:
为了进一步研究空间和时间信息对脑电信号分析的影响,提出了一种并行的三维卷积递归网络。CNN部分采用3d - d -CNN架构。它还以两种流处理数据。该神经网络结构与并行模型的神经网络部分相同,只是它与三维并行模型中LSTM单元的隐藏状态大小不同。因此,最终的时态信息表示也可以表示为 式中,l为并行RNN部分的最终全连通层的大小。与并行模型不同的是,CNN部分使用三维卷积操作提取脑电信号中包含的局部时空信息,而不是二维卷积操作提取的空间信息。局部时空信息代表了相邻脑电图感觉节点间复杂的时空依赖关系。这个概念是关于在三维卷积操作中使用的局部时空接受域。相比之下,RNN不仅可以提取相邻节点对应的全局时间信息,还可以提取非相邻节点对应的全局时间信息。3d - cnn部分以网格片段Sj为输入。提取的特征可以表示为:
式中,l为最终全连接层的大小。将3d - cnn提取的局部时空特征与RNN提取的全局时间特征连接在一起,使用softmax层进行最终的预测3-D-CNN部分有四个卷积层,没有池。convolutional layer kernel size相同为3 * 3 * 3,stride相同为1 * 1 * 1。在convolutional layer中分别有32、64、128、256个feature map。零填充技术使特征图保持S×h×w的相同大小。最后拼接的局部时空和全局时空特征向量大小为2l。
实验与结果总结
我们集中在跨主题、多类场景的PhysioNet EEG数据[43]来评估所提出的运动意图识别框架。所开发的模型与以往报道的模型进行了比较,显示出优越的性能。同时,系统地研究了空间和时间信息对级联框架和并行框架性能的影响。最后,以一个实际的BCI系统为例对所提出的模型进行了评价。
A数据集和模型实现
采用BCI2000仪器[44]采集运动意向脑电图数据,64个电极通道,采样率160-Hz。有109名志愿者参与了实验。然而,在数据预处理阶段,我们发现# 89号受试者的记录是完全不同于其他人(录音显示,# 89运动意图执行任务一次在每个实验运行,而其他受试者重复运动意图记录在每个实验运行)。因此,该参与者的记录被从进一步的分析中删除。我们使用108个受试者的脑电图数据来建立跨受试者数据集。数据集包含五种大脑活动,即闭上眼睛不想象任何事情,想象张开和闭合双脚/双拳/左拳/右拳。我们随机选择75%的数据进行训练,剩下的数据被分割成一半作为默认设置进行验证和测试。我们进行了十次实验,并报告了平均结果。所有的神经网络都是在TensorFlow框架下实现的,并在Nvidia的Titan X Pascal GPU上以完全监督的方式从头开始训练。采用带Adam更新规则[45]的随机梯度下降算法最小化交叉熵损失函数。学习速率为10−4。dropout操作的概率是0.5。根据脑电头戴式,将二维数据网格变换为10×11,如图1所示。经验设置滑动窗口S的长度为10,等于62.5 ms,步长为5,等于31.2 ms。级联模型d、并行模型v和并行三维模型的LSTM单元的隐藏状态分别为64、16和8。所有完全连接的层具有相同的大小为1024。
B比较模型
1)最先进的:我们简要介绍了比较最新的模型。所有的模型都是在同一数据集中实现的
(1) ICA+MLP[46]:采用独立分量分析(ICA)方法进行降噪和记录通道的选择。预处理后的结果被输入多层感知器(MLP)网络,用于最终预测目标内二元MI-EEG分类
(2) SR-FBCSP [47]:收缩正则化FBCSPs (SR-FBCSP)算法是广泛应用的FBCSP算法的改进。
(3) SVM/NN/C4.5 [7]:传统的分类算法,如SVM、nearest neighbour (NN)、C4.5等,都被用来进行一次对一次的脑电分类。
(4)SUTCCSP+RF [48]:强不相关变换复合CSPs (SUTCCSP)算法被用于mu和beta节律的特征提取,RF分类器被用于交叉主题二分类的最终预测。
(5)CTWS+CSP [49]:提出了基于相关时窗选择(CTWS)算法来提取时域内的识别性MI特征。结合CSP和SVM进行特征提取和分类。
(6) AE+XGboost [18]:采用自动编码器(AE)进行脑电特征提取,并使用XGboost对五类、交叉学科的运动图像场景进行最终分类,XGboost在许多比赛中都有不俗的表现。
(7)ICA+QDA [50]:ICA用于特征提取,然后进行二次判别分析(QDA),对三类、交叉学科的场景进行最终分类。
(8)EEG-image+RCNN [17]:脑电图图像是通过复杂的预处理步骤生成的,包括FFT转换,数据压缩、插值后送入RCNN进行认知负荷分类任务。我们使用他们的开放访问代码在相同的MI-EEG数据集上复制了他们的方法。
(9)NeuCube [51]:脑电图信号的时空信息通过一种新的神经网络进行分析:3-D尖峰神经网络储存器(SNNr)模块。我们使用他们的开放存取软件在同样的MI-EEG数据集上实现了他们的方法。
2) Baseline Models:基线模型
除了一组最先进的模型之外,我们还将我们的模型与基于CNN和RNN的模型的变体进行了比较。我们使用1-D-CNN(不含空间和时间信息)、2-D-CNN(仅含空间信息)和3-D-CNN(含空间和时间信息)模型进行比较,研究空间和时间信息对大脑意图识别的影响。1-D- cnn模型以原始的1-D EEG向量作为输入。2-D-CNN模型采用(1)变换后的数据网格作为输入,不使用滑动窗口分割。3- cnn模型采用二维脑电网格的分段作为输入,与级联模型相同。这三种CNN模型每一种都有三个不带子采样层的卷积层、一个全连接层和一个softmax输出层。模型的kernel size为一维3,二维3×3,3维为3×3×3,stride保持不变为1。CNN中所有基线模型的feature map分别为32、64和128。为了便于比较,我们将基线CNN模型的超参数与我们提出的方法中的CNN部分保持一致。引入L2正则化来解决3d - cnn模型的过拟合问题。建立了LSTM单元大小分别为64和16的RNN基线模型,在两个完全连接层之间分别建立了两个RNN层。由于我们所提出的方法使用的是原始脑电图数据,为了进行公平的比较,没有对基线模型进行时域滤波。
C. Experimental Results
在本节中,我们将介绍我们提出的模型的总体性能和比较结果。系统地分析了时空信息的影响以及模型的变化。
(1) Overall Performance:
表一总结了我们提出的模型和比较模型的总体性能。
据观察,我们的级联和并行模型都达到了接近98.3%的高精度,始终超过了最先进的方法和基线模型。虽然有些工作侧重于简单的场景,如类内分类或二值分类,但我们的方法明显优于它们。此外,我们的3d - cnn基线模型仅从相邻感知节点的依赖关系中提取局部时空信息,也取得了与现有作品竞争的结果。
Bashivan et al.[17]也提出使用CNN和RNN进行脑电信号分析。但是,他们使用复杂的预处理步骤,如频率滤波、数据压缩、插值等提取脑电信号的特征,而不是使用原始信号数据来生成脑电信号图像。为了进行比较,我们使用他们在Github上的开放访问代码在我们的数据集上复制了他们的方法,结果也如表I所示。我们的方法比Bashavan的模式多出30%。其原因可能是他们的光谱特征提取步骤包括一个大的连续采样周期的数据压缩过程,而运动意图任务是周期性的短期大脑活动。因此,提取光谱特征可能会丢失原始信号中的关键信息。此外,他们还使用插值方法将原始的64通道数据扩展到一个32×32的矩阵,这带来了大量的噪声。与以往的研究相比,我们的模型直接利用原始脑电图数据,不需要领域知识来选择相关频带或复杂的预处理步骤,可能会丢失关键信息或引入大量噪声,最近一些比较FBCSP和CNN的研究也表明,CNN可以隐式地在原始脑电图数据上充当频率滤波器,而不需要额外的[36]频带滤波。此外,较少的预处理使得它更适合实时应用,如BCI。Kasabov[51]提出了一种三维SNNr模块,该模块将脑电电极的位置投影到三维类脑结构上,可以处理脑电信号中的时空信息。尖峰神经网络(SNN)是一种新的基于事件的神经网络,它与传统的人工神经网络有着本质的区别。我们用我们的数据集重现了他们的方法。结果显示,我们的框架比他们的方法好了大约18%。虽然理论上snn的计算能力与传统的ANN[52]相当,实际上,在传统的机器学习任务[53]中,snn还没有达到与ANNs相同的精度水平。一个主要原因是缺乏足够的深度SNNs训练算法,因为尖峰信号是不可微的,而可微的激活函数是使用误差反向传播[53]的基础。令人惊讶的是,利用脑电信息最丰富的并行三维模型并没有获得与级联或并行模型竞争的性能。然而,它仍然提供比比较的最先进的工作更好的性能。它的精度仅略高于3d - cnn基线模型。原因可能是其复杂的结构需要更仔细的参数调优和强大的训练技术。所提出模型的详细性能评估可在补充材料中找到.图4给出了所提方法和比较方法的复杂度和运行时信息。
为了进行公平的比较,我们只采用了基于深度学习的方法进行比较。要训练的参数的数量被用来评估模型的复杂性。注意,在[17]中,作者提供的参数数量不包括完全连接层的参数。图4中包含了全连通层的参数,进行了完整的比较。结果表明,并行三维模型和基线三维- cnn模型提供的参数最多,而基线RNN模型得到的训练参数最少。级联模型和并行模型的参数量都比[17]模型少,但精度高得多,表明了我们提出的模型的优越性能。由于需要训练的参数数量主要影响训练过程,因此我们也提供了模型的运行时间来表征测试阶段。在运行时估计中,所有经过训练的模型都运行在具有Intel Core i5-6500 CPU和16 gb RAM的工作站上。统计结果表明,运行时参数的数量与运行时有相似的趋势。级联模型和并行模型的运行时间都在10 ms左右,远小于[17]的20 ms左右
2)时空信息的影响
为了研究空间和时间信息对运动意图识别的影响,我们建立了如上所示的各种基线模型,并将它们的表现总结在表I中。CNN首先在图像识别领域提出,利用接受域提取一幅图像中局部相邻像素的特征,这些特征被固定地组织起来,具有代表性意义。而传统的脑电图节点记录是随机的,没有公认的规律,也没有可解释的意义。我们提出在信号采集过程中以二维方式组织原始数据以保存空间信息。2-D-CNN使用接受域提取邻近感觉节点的局部空间特征,类似于CNN应用于图像。实验结果表明,2-D-CNN基线模型的性能优于1-D-CNN模型,这意味着添加显式的空间信息表示增强了模型的性能。三维cnn利用三维感受野提取局部时空特征,这些特征包括复杂的空间依赖性和相邻传感器节点的时间演化,其准确率比二维cnn高出约4%。
该神经网络被广泛证明对长期和短期依赖的时间序列数据具有竞争性的性能。在EEG信号分析中,利用RNN提取相邻节点和非相邻节点的长、短期时间特征,称为全局时间特征。该级联和并行模型利用强大的深度神经网络工具以不同方式将局部空间信息和全局时间信息结合起来。比较结果表明,结合局部空间特征和全局时间特征,与单纯的空间或时间信息相比,增强了脑电信号的分析。但有趣的是,同时考虑局部时空信息和全局时间信息的并行三维模型与仅利用局部时空信息的三维- cnn模型相似。当并行结合RNN添加全局信息时,模型变得更加复杂,需要更仔细的训练或特定的技巧来实现具有竞争力的性能。利用局部空间和全局时间信息的级联和并行模型可以提供良好的性能。局部时空信息与全局时间信息的结合似乎是多余的。
3)级联和并行框架的变体:
由于不可能详尽地研究神经网络架构,这里我们研究了所提出模型的关键组件的影响。级联模型和并行模型的结果分别见表II和表III。
结果表明,CNN或RNN层数越多,两种框架的准确率都越高。但是,这种性能改进是以牺牲计算资源为代价的。因此,我们选择三个CNN层和两个RNN层,在性能和效率之间进行权衡。全连接层也是级联模型创建稳健时空表示的关键组成部分,特别是连接CNN部分和RNN部分的层。在并行模型中,数据同时流过CNN和RNN,有多种方法来融合并行特征。本文研究了两种基本融合方法(拼接和求和)以及两种改进的融合方法(连接连接全连通层和连接连接点态卷积操作),有趣的是,我们发现基本融合方法的效果更好,准确率高于98%。复杂或先进的神经网络需要仔细的训练和参数调整,以实现更好的性能。因此,在基本方法能达到满意效果的情况下,增加更多的操作是多余的。
表四和表五对并行的三维卷积递归神经网络模型的参数和正则化方法灵敏度以及不同结构进行了研究和总结。
由于四层CNN结构需要大量的计算资源,我们使用三层CNN结构作为参数敏感性分析的基线结构。我们注意到,LSTM单元隐藏状态的大小对最终性能有显著影响,当将隐藏状态设置为8时,模型获得了最佳性能。L2正则化方法有助于提高模型的性能,而L1正则化方法显著降低了模型的性能。更大规模的完全连接层有助于模型的性能。在表V中,更多的CNN层显著提高了模型的性能。但是,层次越多,需要的计算资源就越多,所以考虑到我们的EEG数据集比较大,我们选择了四层cnn结构。此外,更多的RNN层也能提供更好的性能,但能力非常有限。
D. Case Study
为了进一步研究我们的模型对于不同脑电采集系统和不同意图任务的灵活性,我们在我们的实验数据集上评估了所提出的模型用于指令意图识别。采用14路无线EMOTIV Epoc+脑电图采集系统,以128 Hz的采样率记录原始脑电图信号。在补充材料中可以看到EMOTIV Epoc+采集系统和EEG记录过程场景。EMOTIV Epoc+ EEG采集系统只有14个感觉节点,这比用于PhysioNet数据集的BCI2000仪器要少得多。由于式(1)中变换函数的稀疏性,在这种情况下,根据感知节点的位置设计新的二维变换函数如下:因此,将脑电图记录转换为6×4矩阵。
每个参与者根据他面前的指示灯提示执行五种指令意图。四个方向的箭头提示被试执行意愿,将箭头移动到相应的方向,即向前、向后、向左、向右。一个圆圈会让参与者什么也不想,只是盯着屏幕,这代表了一个空的意图。在一次录音试验中,参与者完成了一个10秒的意向任务,然后休息了10秒。每个志愿者进行了30次试验,共有9名志愿者,包括3名女性和6名男性。最后,我们有270个试验,每个意图有54个试验。所有的记录被混合起来形成一个跨主题,多类的数据集,以便进一步评估。图5给出了案例研究数据集的评价结果。
参数设置和预处理步骤与前面描述的PhysioNet数据集相同。级联和并行模型的识别准确率均高于90%。并行模型获得最高的准确率93.1%,比最佳基线模型高出20%以上。注意,2-D-CNN模型优于1-D-CNN模型,强调了空间信息对于识别人类意图的重要性。出乎意料的是,3d - cnn模型的表现几乎与2d - cnn模型一样。其原因可能是局部时间表征对脑电信号分析的影响不稳定。而级联和并行模型引入的全局时间信息大大提高了识别性能。与PhysioNet数据集的结果相似,并行3d模型的表现略好于3d - cnn模型,我们注意到,所有模型的性能都略低于使用PhysioNet数据集的性能。原因是在我们的案例研究中14个EEG通道的记录分辨率有限,而在PhysioNet数据集中有64个记录通道。
我们在一个定制的BCI类型系统上部署了所提议的框架。将字母分为三组,使用正向、向左、向右的指示意向选择不同的字母组,使用反向方向选择一个取消按钮。使用null意图来确认选择。当一个集群被选中时,它所包含的字母将被进一步划分为三个子集群,直到一个集群中只剩下一个字母,最后剩下的字母将显示在屏幕上。示例类型过程在补充材料中显示。有兴趣的读者可以参考我们的录音演示:https://youtu.be/RVfydSOZDX8
结论
在这篇论文中,我们提出使用时空表征来增强基于eeg的意图识别在跨主题、多类场景中的应用,并发展了两个统一的、端到端可训练的人类意图识别深度学习框架。在公共数据集和真实脑电接口数据集上的实验证明了我们的模型在不同的人的意图和脑电分辨率下的有效性和可行性。这两个框架提供了类似的识别精度,而并行框架在运行时方面稍好一些。这些框架的大量参数限制了它们在移动设备上的应用。在未来,我们将开发紧凑的框架,探索移动设备上的进一步应用。