3自然语言
3.1动物的语言
3.2自然语言
3.2.1英文语法考察
3.2.2中文语法考察
3.2.3乔姆斯基的语言观
3.4符号的组合
组合
如果只用一个词汇来描写自然语言最根本的机制,会是“组合”一词。乔姆斯基的产生式,右边字符串长度大于左边,就是组合的一种表示。组合是很容易观察到的,虽然对它的准确解读并不容易。语言学家经常用层次分析法或直接成分分析法对语言单位进行层次、结构、成分的分析,效果是线性的字符串语句可显示为树形的展开,叶子结点为一个个词汇。直接成分分析法用其创始人美国语言学家布龙菲尔德Leonard Bloomfield,1887.4-1949.4)所举的例子,Poor John ran away这一句子最终分析为(((Poor)( John))((ran)(away)))四个单词。拆分的过程如下:
直接成分分析又称为二分法,直接成分也就是偏正结构中的中心词,本例中是Poor John中John,ran away中的ran。一般地说,自然语言语句的表达都是这样的输出:ABCDE,并可拆分为A、B、C、D、E多个部分,每个大写字母表示一个词汇,拆分的顺序与层次依据方法不同而不同。表现于口语上,人类一次表达发出的声音可以拆分成多个不同的音段;表现于书面语,每一次的表述最终可拆分为多个不同的字或词。ABCDE的各部分A、B、C、D、E可出现于其它的语句中,其它语句可以是:AXYZ、XBCWS、ABCFE……。
人类使用符号要面对的第一个问题是:要指称或描写的内容是无限的,而且我们也能知道存在无数我们现在还不知道的事物、现象。我们不可能像动物那样为每一个需要表达的内容独立构造一串声音或其它媒介形式,表达不同内容的声音或其它媒介形式相互间没有什么关系,各自独立地存在,每次的使用都是一次单一的操作。换句话说,只有命名的方式是不够的,这里命名包括用词汇指称一次简单的对象,或者用词汇指称一个复合的现象,这并没有天然的限制。
最初,可能只是把容易联想其组合意义的二个声音放在一起说出来,当这个过程开始后,人类自然语言就开始得到塑造。从语用来说,组合与命名会形成分工。可以给每一类事物命名,对于分类下一具体事物,除非本身很重要,否则不会单独给予名称。可以通过组合来指称分类下一个具体的事物,比如“距离太阳最近的星球”来指称水星。一个家庭从祖先x、y开始,理论上其绵延不绝的后代都可以由“儿子”、“女儿”二个词,再加上序数词以递归的方式来指称:第一(儿子(x、y)),、第二(女儿(x、y))、第二(女儿(第一(儿子(x、y))))、第一(儿子(第二(女儿(x、y))))……。利用组合的方式也可以指称一个类别,如“吃草动物”。我们对动作、关系、属性……都只是抽象地命名,在组合中直接应用这些泛指的符号,通过上下文语境得到具体语义。这些策略大大缩减了需要命名的符号。麻烦在于我们也经常使用多义词的策略。
最重要的分工是:给现实中可区分出的事物、属性、关系等要素的类别赋予名称,就可以通过组合来描写事物参与的现象、事件,以及现象、事件的发展变化。对于现象、事件这样的意义我们不需要直接给予名称,组合是更适合的描写方式,这在更大程度上减少了独立命名的需要。从语法上说,一门具体的自然语言不一定完全按上面描述的方式使用,这只是一个趋向,不倾向于此趋向的自然语言需以其它方式达到同样的效果,本质上很难想象其它不同的方式。组合就是自然语言的表现力所在。对组合的使用,符号组合与表达意义的互配。塑造了多数自然语言的格局,产生了语言的使用规则,今天所说的语法。
我们按规则组合所形成的表述,特别适合于我们经验世界的描写。同时我们也可以说出或写下这样的语句:“三足兽展开翅膀,飞向月亮”;“暗物质闪耀着黑色的光芒”,这不是我们见过的真实景象,但语句是合乎语法,可以被理解的。我们可以组合出与此时此地此物此事不相符的符号组合,表示我们的猜测、想象,或者就是幻想。自然语言的表述与其说是由内容决定的描写,不如说是主动的意义生成,只是这种生成用于对现实进行表述时必须能实现符号表述与语义的一致对应,至少要能接近这一目标。
语言符号组合的结果是符号的前后排列,解读时会分解为层次、结构、规则等。就呈现形式而言,语言具有线性特征。线性排列产生语序,多数的语言将语序作为重要的语法手段,比如汉语里说“老虎吃狮子”与“狮子吃老虎”二个句子,它们构成成分都相同,意义完全不一样,这种不一样就是由语序体现出来的。线性对口语是必然的。在文字的一般的应用中,我们在纸的二维平面通过确定一个顺序,如从左至右,再从上至下的顺序,创造一个线性序列来等效口语,我们把这看作历史沿袭,当前文字应用的一个特征,但不认为是纸面应用的必然。
层次
语句进行层次分析或直接成分分析时,分解出下级层次的成分,本身是不同类型的语言单位,这些语言单位在语言里也呈层次的分布,这是我们前面对英语与中文的讲解时说到的:
5句子(包括:小句、单句、复合句)
4复合词/词组
3字/词(包括基础字、词、合成词、派生词)
2词根词素/偏旁部首
1视觉构件(字母、笔划)
视觉构件层次以上,每一层次的语言单位又称为不同的语法实体。第3、4层可以理解为命名得到的符号,命名所用的名称可以是通过已有符号组合得到,这提供了一种可论证性。分层机制实现了表达形式潜在数量几何级数的增长,可以更容易应对表现内容的无限性。自然语言到了语句一层,可组合出的形式理论上是无限多的,这让我们日常生活中的自然语言应用得心应手。
借用分层的概念,我们可虚拟一种经济的语言模型。我们先忽略第1层的内容,然后重新定义语法层级。我们把字或词作为0阶的单位。把0阶的单位通过组合、复合出的单位作为1阶单位,把0阶、1阶的单位组合、复合出的单位作为2阶单位,以此类推,整体最好是有5阶层级。阶层系统应该这样构造:阶层数越低,其语法实体的数量越少,其语法单位统计上使用频率越高。从低阶层到高阶层组合的规则最好是各个阶层之间通用的(注:汉语基本做到了这一点),且数量越少越好。每一阶的单位加上表述性都可成为表述层级的语句,如果需要表述层级可附加尽量少的规则。设计出这样的系统,学习记忆的负载将最小化,只是这种设计的现实意义不大。自然语言是一个意义的发生系统,比如说词汇的出现是由人类的认知决定的,不是语言上的设计,组合的规则同时也兼有意义模式的作用,不可能一味地删减。另外语言是一种文化的载体,惰性是其特征。语言也经常类比为一种制度,制度特性是各个方面的此消彼长,减少命名词汇的数量,反过来不一定能控制复合的阶数,即在一个向度的强化就可能弱化另一向度。
句子层次以上还可以划分成如下的层次:
9丛书
8分册(书)
7章节
6段落(也称:句群)
这些层次也称为语篇层级,它们不再认为是语法实体,因为在这个范围内没有对应的语法规则。连续的多个语句,它们在在语法层面是各自独立的,合理要求是它们在语义层面是连续的,但这种连续性是由人把握的,并没有通用的标准,除非应用了逻辑。
组合与分层的说法包含着一个意思:基础词、派生词、合成词、复合词、甚至词组,它们是离散存在的,每一语法实体可作为一个单位参与不同的组合,就如积木游戏里的木块一样。离散说法这对汉语这样的孤立语言,从心理到物理都是成立的,汉语里的组合也都是物理的、机械的,仅仅把语言单位前后排列在一起。对于英语这样有形态变化的语言,组合有了“化学”的性质,我们还要变换各成份的形态并保持相互的一致。这样就涉及到词的同一性的问题。离散性并不是一开始就明显的事实,说话时人的发音是连续的,文字分析中断句分词也一直是个难点。