因素空间,引领大数据潮流和智能革命的数学理论
汪培庄 李洪兴 冯嘉礼 郭嗣琮
2016.12.16
文章下载:http://huadw2012.gotoip2.com/papers.php?page=3
大数据浪潮是信息革命的一个新阶段,其核心是网络和智能的结合(I & I)。网络是信息的翅膀,智能是数据的灵魂,智网将谱写时代的新篇章。历史上每一场科技革命都要伴随着一门新数学的诞生,今天我们要介绍因素空间,它是引领大数据浪潮和智能革命的一门新的数学理论。
一. 因素空间的思想背景
说起因素,人们都会想到它是事物产生的原因。因素空间所说的'因素'二字需要重新界定一下:它不是事物产生的原因,而是确定原因的要素。举一个例子,'雨量适宜'是粮食丰收的原因,但若进一步问:何以见得它就是丰收的原因呢?这就必须引出降雨量,是它的变化改变着粮食产量,或致丰收,或致饥荒,丰收的原因乃是被它这个要素所规定的,它就是我们所要说的因素。因素是原因之先导,是原因形成之要素,从寻找原因到把握因素是人脑认知的一种升华。
任何事物都是质与量的统一,质指的是属性。哲学家都强调属性的重要,但却忽略了要强调质的根。属性不能孤立存在,有白就有黑,或是对立的两极,或是多个属性成串。成串的属性都有一个根,本文作者把它叫做质根。红、黄、蓝、白、黑是一串属性,颜色是串领这些属性的质根。离开质根的串领,属性就像断线的珍珠一样洒满遍地,杂乱无章。孟德尔为了把握千变万化的生命属性,正确地提出了基因架构:同串性状在同一个基因座上以开关的形式呈现。基因就是生物的质根。基因原称为孟德尔因素(Mendelian factor),后来才改为Gene,可见基因是特殊的因素,因素是广义的基因。基因是生命体的质根,因素就是一般事物的质根。
因素与属性是不同层次的东西。红、黄、蓝、白、黑是属性,颜色是统帅它们的因素。前者是属性值,后者是属性名,属性值与属性名不可混淆。当然,这种区分是相对而不是绝对的,在不同的上下文中,属性值也可能转化为再细分的属性名。但是,从逻辑上讲,二者是有层次差异的东西,不容混淆。需要交代的是:在生命科学逐渐深入的今天,人们发现基因座似乎并不存在,于是,现象掩盖了本质,不少搞基因的人离弃了质根思想,把基因与性状混为一谈,导致DNA识别的复杂化。不难想见,DNA不仅要提供遗传信息的密码,同时还要复制出生命的形体,当这两种功能发生矛盾的时候,必须先保持生命体的形态而后编制密码,这就必须部分打乱基因座的位置,从而使人产生基因座不存在的误解。尽管如此,DNA识别仍然要回到数量性状基因座(QTL)上来。按照因素的思辩,把遗传信息与人体形态两类因素结合起来加以考虑,DNA识别可能会出现比较简捷的算法。
事物都有质根,这是客观世界本体所具有的因素特质。然而,人脑的神经结构更具有因素特质。人的视觉、听觉、嗅觉、味觉和触觉都是因素,相应的感觉细胞都分布在大脑的不同区域之中。神经生理学还证实,视觉细胞是按特征来分层的。而特征就是(二值)因素。我们可以猜想,所有的感觉细胞都是按因素分区、分层而布置的。一组感觉细胞被一个因素所统帅,每个细胞只对此因素下的一个属性负责,面对一个对象,此细胞究竟是兴奋、是抑制还是沉寂,取决于对象在此因素下所呈现的状态与此细胞所负责的属性是相同、相反还是无关。同一时刻,对象在不同因素下会引起多个兴奋点,同时兴奋的这些神经细胞之间的突触会加强连接,多次强化联结会形成突触瘤。突触的活动造就了属性的综合,形成知觉,再与词神经元结合就形成原子概念。知识在大脑中不是虚空而是化归记忆,记忆就是物化了的知识。人脑在出生时有相同的结构,但长大以后各不相同,首先就是知识结构的不同。人脑在提取知识的过程中同时也被知识所塑造,这是一个双向过程。大脑的神经网络本质上是由知识所塑造的,因素是塑造的筋骨,这就是大脑的因素特质!
认知过程更加具有因素特质。什么是知识?西方学者如盲人摸象,众说纷纭。马克思的认识论是反映论,知识就是人脑对客观事物的正确反映。这里的正确反映不是消极而是积极,不是镜像而是提炼,能反映事物的本质而不停留于现象。婴儿出生时是镜像反映,不知信息的含义,脑中只有零概念。零概念的内涵是零描述,外延是世界混沌一团。人类知识大厦就是从零概念一步一步生长出来的。每走一步,都要从上一个概念团粒的对象间寻找新的差异,进行对比和划分,以便产生新的概念,使概念团粒不断细化。而差异是一个因素词,世上任意两个事物都有异性与共性,离开因素无所谓异同。对比也是一个因素词,风马牛是无法对比的,对比必须有可比的基础,因素就是所串领属性之间的比较基。属性是事物在单因素下的状态划分,概念是事物在多因素下的属性组态,因素是概念生成之母。概念是对事物构成的本质认识,因素不仅是寻找原因之要素,更是事物构成与认知的要素,这就是认知过程的因素特质。
主观、脑观和客观的特质使因素具有以下两大功能:1. 单因素是分析器。世间任何事物都是复杂的,离开分析便无法理解,因素是理解的入口,它把事物映射成属性。例如,身高(张三)=高个子,体重(张三)=不重,性格(张三)=坚毅,如此等等。因素是启发的指引符,引领人的注意,形成一定的维度。2. 多因素是综合器,回到具体事物,形成知觉。分析与综合是最基本的智能活动,因素既从根本上描述了这两项活动,就理所当然地成为智能描述的关键。
二.因素空间是事物及认知描述的普适性框架
越过具体的数学符号和公式,读者已经可以看到因素空间的大致轮廓。面对一个事物,例如张三,我们先用各种因素去分析他,把他映射到不同的坐标轴上,得到不同的属性,然后再进行综合,将这些轴交叉起来,形成一个坐标空间,这样以因素为轴的坐标空间就叫做因素空间。张三被映射成为因素空间中的一个点,他就被这个因素空间所描述。任何事物都可以像张三一样地被相应的因素空间所描述。因素空间是事物描述的普适性框架。
因素身高把张三映射为一个属性值'高个子',它是一个定性的语言值。在人脑中,一个质根所对应的属性值不能太多,按照生活标定习惯,通常取两个、三个或五个,组成一个值域,叫做因素的定性相空间。例如,{高,矮},{高,中,矮}或{很高,较高,中等,较矮,很矮}。定性相空间就是因素的'轴'。这种轴的数学特性极差,没有距离没有方向,但由于因素是为问题求解而设,所统帅的属性带有对目标的满足程度,按程度排列,这样的相空间就具有数学的序结构。所有启用三值有序相空间的因素都可将其属性表为I, II或III,它们的质性都归到质根上,属性值之间只有程度的差别。二值、五值或多值也类似。有没有无序的相空间呢?有,例如职业、决策方案等这样一些因素,都不具有有序的相空间。但在因果分析中,我们只按结果来分类,无需考虑结果的有序性。只要条件因素的相空间保持有序性就行了。
质与量可以相互转化。质是团粒化了的量,量是裂粒化了的质。从这个意义上来说,因素的相空间应该是二元论的。为什么不可以把[10, 250](cm) 也取为身高的相空间呢?这叫做定量的相空间。任何因素都有定性与定量的两种相空间,但我们并不要求这两种空间齐备。选取其中的哪一种也不限定,一切从解决问题的需要出发。定量与定性的相空间之间如何转换也不作硬性规定,在北方可以把高个子定为一米八以上,在南方可以把它定为一米七以上,而对篮球队员则可定在二米以上,一般定为一个模糊子集。定性与定量的相互转换可以完全依靠模糊集合论及其新支来解决,但在数据组织中必须完全交代清楚。因素取定量相空间时就转化为普通的(一维或多维)实变量,相应的因素空间就转化为普通的(局部或整体)欧氏空间。从这个意义上说,因素空间是笛卡尔坐标空间的推广。作为数学理论,因素空间一定要站在传统数学的肩膀上往上攀登。在其二元表示论中,前者是依托,后者创新花。
因素空间对笛卡尔空间的拓广,不仅是相的定性化,更强调了空间维度的灵活可变性。人脑思维架式是变维思考而不被固定在一个僵死的因素标架上。因素维度的变换主要有两种类型:1. 随聚焦的变换而变换,判断一个影像是人物还是风景,要考虑的因素首先是动静;发现有活物,要分辨那是车还是人,就要考察对象的形态和姿势;发现是人,要分辨是谁,那就要区别人的面貌,身材,举止等特征。如此逐步聚焦,因素随时在变。在任何情况下都要进行因素的约简,把无用或次要因素去掉,使问题化为最简。焦点是被观察体上的观测范围,聚焦使范围缩小,相关的因素却随范围的缩小而增多。例如,焦点从人体缩小到头部,就要考虑脸型,五官分布等新的因素,若再聚焦到眼睛,就要考虑眼睛的度量尺寸。焦点不仅要聚,有时还要散,就像拍电影,镜头要反复拉近和放远。2. 随系统的运行而变换。任何对象都是复杂的系统,系统有不同的节点,每个节点都有其特殊性,都要张出自己的因素空间,我们所搭的舞台也要随时变化。
为了刻画变维,我们在因素之间定义了两种数学运算:综合与分解。例如,色、香、味是美食家所考虑的三个基本因素。把色与香综合起来是一个因素:色香,它是同时把色与香综合考虑所产生的映射。如果色的相空间是{美,丑},香的相空间是{香,臭},那么,色香的相空间就是{美且香,美且臭,丑且香,丑且臭}。在数学上就用相空间的笛卡尔乘积来定义综合运算。美且香或丑且臭的食品很多,有美且臭和丑且香的食品吗?有,但却极少,这四种组态出现的概率分布是不一样的。这说明色与香这两个因素是不完全独立的。独立因素之间没有因果可寻,因果律只在不独立的因素之间成立。组态出现的概率分布恰是因果分析的基础,叫做背景分布。对于不独立的因素,我们都先把它们的相空间取笛卡尔乘积,然后,用背景分布作为实际的综合相空间,这是因素空间理论的一个基本手法。合成运算把简单因素组合成复杂因素,分解运算则把复杂因素化为简单因素。例如,由色香和香味这两个复杂因素中可以提炼出一个简单因素'香',它的相空间是前两个相空间元素之间的共生关系在两个相空间中所形成的公共商空间。两个因素若不独立,是否一定能分解出一个新的子因素?例如,色与香的'公因子'因素是什么?这要看共生关系能否一定能形成共有的商空间。因素的分解在数学上比合成运算要复杂得多,但也重要得多,工匠的细化可能与因素的分解有关,是正在探索的一个方向。本质上说,合成与分解运算对应着向量空间基底的并与交运算。两组因素的分解会导致因素的张量运算。这些运算对于数据表格在周转整合方面的Codd理论提供了有力的工具。
合成与分解运算使得因素相空间的维度随着因素繁简交变,因素空间就在数学上被定义成一个以因素为参数的集合族,而参数域可以按这两种运算形成偏序集或格,甚至强化为一个布尔代数。
三.因素空间是认知与智能描述的平台
认知与智能描述在人们心目中是神秘而难以琢磨的事情,破门的诀窍在于简明。概念生成是理性思维的基元;因果归纳与推理是理性思维的法则;决策控制是理性思维的运用。一切繁杂的划分在此变得简明,认识和改造世界的任务都被囊括。这三项任务都可以被因素所描述,都可用因素空间建立简明统一的数学模式并编制出快捷的算法。
概念生成的数学问题可以这样来表达:当某个概念不满足认知的需求,我们要用一组因素对它的外延U进行新划分,试问原概念能细化为哪些新概念?解答:写出这组因素的定性相空间(空间的相数与划分要直观地满足概念粒度的精细要求),考虑它们的一切属性组合(即笛卡尔乘积空间),去掉那些U中对象所取不到或极少取到的虚组态,得到背景集R(即实际存在的属性组合), R中的每一个属性组合都叫做一个原子内涵。论域U中的对象按所对应的原子内涵分类,每个类都叫做相应的原子外延。原子内涵与原子外延之间一定满足对合性原则,于是就确定了一个原子概念。R中有多少个属性组合,就有多少个原子概念。再用'或'字把原子概念连接起来,就可以生成所有的新概念。这样生成的概念数量太多,没必要加以记忆,我们仅仅需要记住其中的基本概念。所谓基本概念是指能用合取范式表达的概念(即有矩形内涵的概念),它们生成一个半格,叫做基本概念半格。提取原子概念不需要算法,提取基本概念半格的算法也很简单,复杂度很低。但是,同样的问题用现有的其它数学处理还相当繁难,甚至不能保证有多项式算法。
在回答了前一个问题的基础上,因果归纳可化为这样一个数学问题:将所有因素分为条件与结果两类,要通过背景分布R来提取从条件到结果的因果推理句,并且要在因素约简的前提下来获取这些推理句。回答:若某条件因素对U所划分出的一个类A(简称条件类)被某个结果类B所包含(简称A钻入B),则可归纳出一个因果推理句'若A则B'。按照钻入对象的多少定义每个因素对结果的决定度,按决定度从大到小的顺序,用第一个因素去提取规则,从U中删去已经钻入结果的对象,再取第一与第二因素的合成因素继续提取规则,如此继续下去,直到U中全部对象都钻入结果为止。这一算法与数据挖掘中的决策树方法不谋而合,所不同的是用决定度取代增熵,可以移交给决策树方法,形成决策树。基于因果规则进行推理的数学问题大家都明白,多数已由数理逻辑和模糊逻辑所解决。但是,因素空间也可以考虑一种新的因素逻辑。经典数理逻辑和模糊逻辑及其它非经典逻辑都不涉及公理,而公理的形成来自归纳,因素逻辑可以把归纳过程纳入逻辑讨论的范围,用因素空间的背景分布作为内核,去掉经典逻辑的繁杂描述,建立背景分布上的简捷谓词演算。
决策评价和控制本质上是因果规则提取的衍生问题:若把决策方案取为结果因素,则因果规则的提取便转化为决策方法。若把评价或评分取为结果因素,则因果规则的提取便转化为综合评估。若把控制变量取为结果因素,则因果规则的提取便转化为多因素的控制。它们在数学上都不需要另辟篇章,但是,第三项决策和评估有一个特殊的数学描述对象,就是权重分配。权重是一个因素词,权重是因素之间的权衡,离开因素,无所谓权重。因素空间的一大用武之地是围绕权重而展开的决策评价。它已经发展出一套变权综合的位势理论,将来有可能通过微分方程的参数来调控评价体系,掌控被倒逼系统的临界状况。
这三项任务的理论和算法,足以对一个认知单元建立一个问答系统,回答是什么?为什么?将会如何?应当如何?...等一系列认知问题。
所谓一个认知单元就是对一个给定概念团粒的细化,由一个因素空间来承担。新的子概念又可根据新的要求再生成一个因素空间,形成因素空间藤(简称因素藤),按照前述的维度变换思想,一个实际系统可以在不同节点上生成多个因素空间,也可被视为另一种形式的因素藤。因素藤实现知识的融合,形成更大的认知网络。
四.因素库是大数据的科学理论
按照因素空间所形成的数据库叫做因素库。
大数据使数据的常态从存储变为流动,流动不仅进一步改变数据的数量,还改变了数据的性质,从数字拓展为影像和音像,凡是有记录的信息都是数据。按照大脑的因素特质,因素库将在原有关系数据库的基础上向前发展,它具有以下四个方面的新特色:
-
明确了数据挖掘的目标。背景分布决定概念生成、因果归纳和逻辑推理,背景分布决定知识结构,知识挖掘的目标就是用数据样本逼近背景分布R。
-
明确了化大为小的关键。在很宽泛的条件下,背景分布具有凸性,凸集可以由其顶点决定。R的顶点所构成的集合叫做背景基B, 它的数量比R要小得多。从R到B,是信息压缩的关键,已经有了初步的压缩算法。设有k个顶点,有n个因素,对于一个新的数据(点),要判断它是否是这k个顶点的内点,只需不超过4kn次运算。若是内点,则弃之于不顾;否则,将新点加为顶点,再对原来的某些顶点重新审查,若转变成内点,就删除掉。只要对背景基的个数进行控制,面对着大数据,除了个别的排队时间以外,数据库始终保持着非大的数据。
-
对于非结构化数据,在关系数据库的右端,留下影像资料作备份。按目标需求询问这些资料的参考价值,随时调用。
-
背景样本是去掉对象而留下的性状分布,不存在隐私泄露的问题;样本求并可以并行计算。
五.建立人机认知体是人工智能发展的战略目标
人机认知系统是因素空间所提出的一个新概念。所谓一个人机认知体是一个有人参与的按知识组织的在网上吞吐数据的软硬件生态系统。它以提取、发展和运用知识为特色,以实现各行各业智能化为目的,直接服务于国家科学化的和谐、持续发展战略。
人工智能的发展在上世纪八十年代以前曾以智能计算机的研制为主要目标,但在九十年代走向低落。原因之一是网络革命悄然而至,当全球的计算机都联网以后,什么叫做一台计算机的问题需要重新界定。中心处理器被边缘化,数据处理的软件成为智能革命的主要战场。新世纪以来,尽管新材料的计算机研制仍在继续,原有的第五代或后五代计算机的提法就很少重现了。过去从事这方面研究的人们至今不知道自己的奋斗目标究竟怎样重新设置。人机认知体就是新的人工智能发展的战略目标。
前面已经分析过,人脑结构具有因素特质。人脑是神经细胞按因素组织成的知识载体。人机认知体是数据按因素组织而成的知识载体。这两种载体按因素而互相同构,它在本质上是一种人工脑。
数学思想与哲学思辨紧密相连。微积分的数学思想是伴随着辩证的哲学思辨一起发展起来的;精神转化为物质,出现了火车、轮船和飞机。现在,因素空间的运用必须有因素思辨的支持。因素思辨本质上就是矛盾论。每个因素都联系着一对矛盾。凡事要抓矛盾,凡事就要抓因素。人机认知体中的人是系统的引领者,他要有因素思辨,并用因素空间的数学方法去实现因素的思辨。
人机认知体的构建是一项全民过程,在自上而下的规划下,由各行业各部门自下而上地从每一个知识包一点一滴地做起。目前已经在实践的是金融认知体,安全认知体和保健医疗认知体。
人机认知体是一个自组织的生态系统。其发生发展将改变各个国家的强弱格局,这是一个不以人们意志为转移的历史趋势,我们要实现中国梦,决不能丧失先机。
六.因素空间是我国学者在国际竞争中的创新学说
1982年,在国际同时出现了三个直接以认知为描述对象的数学理论:德国威尔提出的形式概念分析(Formal concept analysis), 波兰庖拉克提出的粗糙集(Rough sets)和汪培庄提出的因素空间(Factor space)。在数学发展的长河中,数理逻辑、概率统计、集合论(尤其是从模糊集开始的非经典集合论)、运筹优化等理论都参与了推理、归纳、预测和决策等认知过程的描述,对人工智能作出了各自不同的重要贡献。但那都是出于自身特质而自发引申出来的应用,它们都没有明确地宣布自己以智能描述为己任。威尔用内涵与外延的对合性来定义概念,明确地把概念作为数学研究的对象,这就开辟了智能数学的先河。粗糙集、因素空间所讨论的也都是概念和知识。 同年段出现了三个智能数学的分支,这是数学上值得关注的一件事情。威尔的文章很严谨,可惜的是,由于他所看重的是属性值而非属性名,致使他的形式背景列表困难,从表中提取概念格(应是'基本概念半格')至今还没有突破N-hard的陷阱. 庖拉克是数据知识发现(KDD)的发起人之一,他看重的不是属性值而是属性名,这一变化使形式背景表的列数大大减少而变成了信息系统表,成为关系数据库的模板,粗糙集为关系数据库奠定了理论基础,贡献很大。但是,庖拉克学派虽然启用了属性名,却没有站在因素的高度上,真正建立因素的运算,在理论上还存在漏洞,属性约简的实际算法也很繁杂,不能适应大数据的时代潮流。
1982年提出因素空间的最早目的,是要探索随机性与模糊性的联系与区别。用因素空间来研究概率基本空间,发现随机性是由于掌控因素的不充分而导致因果律的破缺,概率是不充分条件下的广义因果律,概率论要促进随机性向必然性的转化;用因素空间来研究模糊集的论域,发现模糊性是描述因素的不充分而导致的排中律的破缺,隶属度是广义的排中律,模糊数学要促进模糊性向清晰性转化。在这两种不确定性之间存在这样一种对偶性:随机试验模型是"圈圈固定,点子在变",而模糊试验模型是"点子固定,圈圈在变"。根据这一思想,地上的模糊现象就可转化成天(幂集)上的随机现象。天上的随机变量是随机集,相应的统计是集值统计或区间统计. 靠着随机区间对u的覆盖频率来确定隶属度m年轻(u), 隶属曲线乃是随机集的落影,这就形成了模糊落影理论。把序、拓扑和可测结构提升到冪上,建立了了八种超拓扑和超可测结构,由之建立了随机集和信度的严密数学理论, 证明了四种非可加信度与随机集分布对应关系的存在性和唯一性定理, 把测度扩张定理的扩张起点从半环提前到p-系。在因素空间和模糊落影理论的指导下,1988年,北师大研制出国际第二台模糊推理机,与日本山川烈在1987年的首台"模糊计算机"相比,推理速度从每秒一千万提高到一千五百万次,体积不到他的十分之一。这一成果是在在钱学森教授的亲自指导下完成的,因素空间被作为人工智能的数学支持理论来抓。直到今天,李洪兴的四级倒立摆因素控制仍然在国际上领先。 2012年辽宁工程技术大学成立智能工程与数学研究院,正式将因素空间用于数据科学,几年来的研究成果显示了因素空间对大数据智能化处理在深度、广度和强度上所具有的不可取代的优势。因素空间是中国学者的创新之举,值得往前下功夫。