1. 引言
为了能够对来自大量信源的混合数据进行比较,需要考虑不同集合中表述的信息片段,因而需要将这些信息片段转移到共有的集合中。这个共有集合通常不同于包含观测数据的集合。
例如,对于典型的分类问题,观测数据在独特的属性空间中表述,其结果肯定是在可能的对象类空间中进行说明。
在任何决策处理之前,所有这些都需要一个函数来完成,这涉及将一个给定的集合中提供的知识片段投射到一个不同的集合中,这涉及到连接这两个集合彼此的关系的描述(或多或少不精确或不确定)。
2. 模糊集:不精确性的传播
0x1:扩展 -- 模糊集理论下的不精确性传播方法
正如前面的文章讨论的,模糊集设计用于描述给定的常规集的数值的不精确性。
因此,为了能在不同的集合中表示时,表现出该数值的不精确性,需要在新的集合中定义该模糊集,当服从所谈论数值经历的转换时,它是原来模糊集的镜像。
在模糊集理论背景下实现该转换的运算称为“扩展”。
这个工具是相对简单的、和直接的。考虑两个集合 X={x},Y={y} 上定义的一个应用:
它使 X 的元素 x 的集合与 Y 的元素 y 的集合发生联系。
如果考虑 X 的通过其隶属函数 μA(x) 定义的一个模糊集 A,随之是 Y 的一个模糊集 B,它是 A 通过应用的镜像,由下面的隶属函数描述:
因此,X 的不精确的 μA(x) 通过被转换成 Y 的不精确的 μB(x),由上面方程提供。
0x2:扩展原理在笛卡尔乘积中的一个应用
通过将其应用到笛卡尔乘积来说明这一扩展的原理,并从中获得一些有用的实用推论。其思想是在每一个不同的常规集 X1,....,Xq 中定义一个模糊集,并通过下列方程式从其笛卡尔乘积 X 获得一个模糊集:
扩展到笛卡尔乘积的原理的一个直接应用是模糊运算,其中定义为:
应用于两个模糊数的和的例子如图所示(N=2):
当试图评估的输出值与不精确的观察值之间通过公知的确定性规则(自然法则等)相联系时,数据融合这一概念特别有用。
总的来说,扩展原理的一般性质意味着它可以用于所有类型的集合之间的不精确性转换,这正是传播不精确性信息时所追求的。
3. 概率和可能性:针对不确定性的同样方法
0x1:似然性扩展 -- 概率论和可能性理论下的不确定性传播方法
正如在前面文章讨论的,概率和可能性用于描述不确定性。
1、概率方面
因此,问题是已知 E1 的元素和 E2 的元素之间存在不确定关系的描述,要考虑集合 E1 = {H11,.....,HI11} 似然性的扩展,同时推断它在集合 E2 = {H12,.....,Hi21} 上产生的似然性。
更具体地说,这意味着在概率方面,如果已知 E1 上的概率分布 PE1(.) 和 E2 的元素受限于 E1 元素的条件概率 PE2/E1(./.),目标是为 E2 推断概率分布 PE2(.)。
具体而言,例如,PE2/E1(Hj2/Hi1) = 0.7,意味着只有当 Hi1 绝对为真时,Hj2 为真的概率是0.7。
2、可能性方面
关于可能性,虽然起作用的概念具有不同的含义,但方法是一样的。
在这种情况下,输入数据首先服从 E1 上的可能性分布 πE1(.),其次服从 E2 的元素受限于 E1 元素的条件可能性分布 πE2/E1(./.)。
例如,这里 πE2/E1(Hj2/Hi1) = 0.7 意味着只有当 Hi1 绝对为真时,Hj2 为真的概率是0.7。
0x2:似然性扩展原理在笛卡尔乘积中的一个应用
1、概率方面
似然性扩展理论提供了笛卡尔乘积 E1 x E2 上的概率密度 PE2/E1(./.),以及下列关系的应用:
因此,通过联合概率在 E2 上的投影产生的边际概率 PE2(.) 直接提供了所需的运算:
2、可能性方面
如同概率的作用一样,当应用于该问题的数据时,下列方程提供了笛卡尔乘积 E1 x E2 的联合可能性 πE2/E1(./.):
然后,下列方程将联合可能性投影到 E2 上,提供所寻求的边际可能性 πE2(.)。因此,在这种情况下,满足问题的运算是:
综上可以看出,不确定性的传播中,概率和可能性运算的严格的相似性,以及这两种理论处理传播的能力。
4. 可信度函数:传播的总体视图
在前面的文章中我们知道,通过联合两组运算 -- 调节/失调、细化/粗化运算,能够在任何两个集合之间转移可信度。
这个章节,我们来进一步讨论一种基于这两个独立的运算族发展而来的特殊的运算,它能够将任意识别框架的可信度投射到任何其他的识别框架。由于其与模糊集的扩展相似,该运算被称为“扩展”。
0x1:一个通用扩展:扩展
扩展运算设计用于确定由空间 Ee 上的质量分布函数 me(.) 的知识引起的空间 Es 上的质量分布函数 ms(.),以及 Es 与 Ee 的元素的连接关系(具有不同程度的确定性)。
这种情况的一个例子是一组观察数据提供了空间 Ee 上的描述属性的似然值 me(.),试图确定对象类空间 Es 上由对象被观察属性的不精确性,或不确定的描述信息引起的似然值 ms(.)。
扩展严格等同于调节/失调、细化/粗化运算,因为它是由这两个运算独自发展的,而且相反地,这两种原始运算仅仅是新运算的特殊实现。
扩展方法意味着可以保证它能够管理集合的大小(例如通过调节)及其粗糙度(例如通过细化)。因此,这是处理集合所有可能演变任务的合适的解决方案。
如果可信度函数应用于概率,那么质量分布、可信度和似然性都成为概率。
正如在之前的文章中讨论的,概率构成了可信度函数的特殊情况。概率传播工具同样是为可信度函数建立的扩展工具的相应的特殊情况。
在与代表了可信度函数(一致性函数)的另一种特定情况的可能性的联系方面,也是同样的。
0x2:具有最小特异性的质量分布函数的阐述
0x3:扩展运算的直接利用
上述讨论的扩展运算能够处理 Ee = Ex = {X1,.....,XNx} 上表达的 X值和 Es = Ey = {X1,.....,XNy} 上表达的 Y值之间的依赖关系。
具体而言,如果知道连接两者的某些关系,前者似然性的度量可以用于获取后者的似然性。
以分类问题为例,X是能够描述对象的典型属性,如:
- 尺寸
- 形状
- 颜色
- ...
某对象呈现给传感器的关于 X 的观察数据得到 Ex 的似然函数 Plx(.)。Y是 Ey 中所列的一个对象类。
基于先验知识,它在属性 X 方面以 Ey 的条件似然性 Ply(./B∈Ex) 的形式或多或少得到完全描述,例如:某个领空的小物体可能是无人驾驶飞机或导弹,但永远不会是一架客机。
在此提出的运算能够检验所有的信息并推断该观察对象可能属于的不同类的可能性。
以评估问题为例,X 和 Y 可能都是属性(例如,大小和速度),鉴于连接两者的物理关系,有关其中之一的信息可以提供获得有关另一个的知识的途径(例如,最快的车辆一般都是最小的)。这有点类似互信息的概念。
5. 扩展运算的应用实例:随时间推移的知识更新
扩展运算的另一直接和重要的用途是随时间推移的知识更新,典型的两个扩展运算能够基于先前的观察数据和有关事物,从某次观察之后可能的演变的知识评价最新的情况。
0x1:问题背景:地面图像识别
设想我们对地面图像像素的4个类别之间的分类感兴趣:
- 沙土
- 水域
- 田地
- 森林
如下图所示,有不同日期拍摄的相同的两幅图像,我们对河边的像素感兴趣,它与所拍摄的第一张图像的沙土相关,但在第二张图中却与水域相关,因为河流的水平面在这期间已经上升了。
相关地,第一幅图的解释产生以下像素分类的概念:
P(沙土)=0.5;P(水域)=0.05;P(田地)=0.4;P(森林)=0.05
对第一幅图来说,沙土是最可能的预测,但同时存在和田地混淆的风险。
第二幅图中,同一像素的解释产生了不同的分类概率:
P(沙土)=0;P(水域)=0.5;P(田地)=0.45;P(森林)=0.05
对第二幅图来说,此时水域是最有可能的,但仍然有与在该特定时刻淹水了的田地相混淆的误判风险。
因此,已知沙土有可能在两幅图拍摄期间已成为水域,目标是通过减少与田地相混淆的风险,融合两幅图以确认当第二幅图拍摄时像素确实是水域这一事实。
事实上,该问题是一个迭代过程的一部分,在此期望在每一个阶段根据先前的观察数据预测像素的状态,并更新基于当时可用的观察数据而获得的知识。
因此,在某种意义上说,要寻求进行卡尔曼滤波,它除了影响目标的动力学状态,还影响其描述。
0x2:概率论视角下如何解决这类信源融合问题
作为参考,我们先来看看适用于该问题的概率方法。
该方法包括了两个步骤:
- 预测:第一幅图的诠释投射到第二幅图的日期,考虑到最初是沙土的现在是沙土或者水域各自的概率。因此,0.5的沙土概率在两种可能性之间等分,成为水域0.25和沙土0.25,得出第一幅图的诠释在第二幅图的可能预测:P(沙土)=0.25;P(水域)=0.3;P(田地)=0.4;P(森林)=0.05。
- 通过融合从第一幅图得出的预测与第二幅图的实际观察信息,对概率估计进行更新,产生最后的结果:P(沙土)=0;P(水域)=0.45;P(田地)=0.54;P(森林)=0.01
可以看到,这个过程导致分类上的错误,因为“田地”似乎是最有可能的类。
因此,在这种情况下,数据融合只不过增加了混乱。
0x3:D-S理论视角下如何解决这类信源融合问题
现在考虑可信度函数,对下列数据应用前面讨论的扩展运算:
- :是四个可能类的集合,考虑拍摄第一幅图的时刻
- Es 是同一集合,考虑拍摄第二幅图的时刻
- :是贝叶斯简单集成了产生于第一幅图的诠释的概率
- :具有 0 或 1 值,解释以下可能的转换的原因:
这种方法遵循了确定概率的两个步骤,只有运算不同:
- 预测:第一幅图的诠释投射到第二幅图的日期,考虑到最初是沙土的现在是沙土或者水域的概率。扩展运算应用于上述数据只不过导致沙土上的质量分布0.5转移到主要元素(沙土∪水域),以得出第一幅图的诠释在第二幅图上的预测:m(沙土∪水域)=0.5;m(水域)=0.05;m(田地)=0.4;m(森林)=0.05。
- 通过合取组合,从第一幅图像得出的预测与第二幅图的诠释实现更新,产生最后结果:m(沙土)=0;m(水域)=0.6;m(田地)=0.39;m(森林)=0.01。
此时,该过程不仅产生了一个准确分类“水域”的识别,也如期减少了与田地混淆的风险。
这一切都由于这样的事实:在预测阶段,沙土和水域保留所有第一幅图像拍摄的沙土的质量分布,否定了其他假设。相反地,概率方法中,该质量分布于两个假设之间,因此对半降低了其对于其他假设的强度。
因此,这个例子说明了可信度函数形式在克服加性约束,它也阐明了扩展运算的正确用法,以及其在可信度函数理论贡献开发上的针对性。