|
自然语言采用词汇和非词汇(如词序、曲折变化、韵律等)两种表达方式描述句子信息. 在语言处理中,也采用相似方式从不同层次表达句子信息:(1) 实体方式,即描述句子的词汇集、概念集;(2) 属性方式,即实体自身的内部属性、实体间的关联依存属性[1].每种表达方式都对应一些基本知识处理操作.本文从属性和实体两个角度对语言处理中的基本运算进行了分类研究,系统定义了两级基本运算集:属性派生运算集;实体转化运算集.这些研究有助于建立更经济的知识处理模式、更通用的信息描述机制.
1 属性派生运算集
语言处理的实质是获取各实体的完备属性集.属性派生运算以属性为运算对象,研究采用何种方式集成一些已知实体属性,获取未知属性信息或修正已知属性信息.本文针对属性派生操作对象集、操作结果集的特点,定义了相变、聚合、析合、裂变4类属性派生操作. 定义各基本运算之前,先给出几个符号说明:实体集合{e1,e2,…}记为E;实体属性集合{a1,a2,…}记为A;实体e的属性集合定义为e所具有的属性ai(i>0)组成的集合,记为A(e). 1) 相变操作 定义1 相变操作. 由实体的1个属性映射出另1个新属性,加载到1个实体上. 亦即,e,e′j∈E, ai ∈A(e), a′∈A(e′j). 若由ai可映射出属性a′,则称ai相变为a′,记为Ρ(ai)=a′. 例如,时态、语态等句法特征独立于词汇的具体含义,仅与句法结构、词汇形态相关,在由句法信息派生语用信息的过程中,时态(如现在时)将相变为语义结构的时间属性(说话时刻);语态句法属性(如命令式)将相变为语义结构的语态属性(即命令式),即 P( TENSE.present )= TIME.speech-time;
(1)
P( MOOD.imperative )= MOOD.imperative;
(2)
根据新旧属性的差异程度,相变又可分为实相变和虚相变两类.若在Ρ(ai)= a′中,ai≠a′,则Ρ(ai)= a′为实相变,否则为虚相变.实相变可以获取1个新属性值(如式(1)),虚相变则只是对原属性值的复制(如式(2)).实相变和虚相变的划分反映了语言处理中属性信息继承性和变异性. 2)聚合操作 在语言处理中,有时某个属性信息的出现完全受其它多个相关属性信息的共同制约,新属性的获取与这些相关属性直接相关.例如,在兼类处理或确定词汇间的依存关系[2,3]时,时常需要同时考察多个词汇的多个相关属性.聚合操作的功能是由实体集中的m(m>1)个属性映射出1个新属性,加载到1个实体上,而且新属性的生成不能通过相变操作的多次重复使用(复用)实现. 定义2 聚合操作.E′={e1,e2,…,en},n≥1. E′ E.e1,ei,…,en的部分属性信息组成集合M={a1,a2,…,am},m>1, 即{a1,a2,…,am}∪ni=1A(ei).若由{a1,a2,…,am}可映射出新属性信息a′,且a′∈A(e′ j),e′ j∈E,ai∈{a1,a2,…,am},Ρ(ai)≠a′,则称{ a1,a2,…,am}聚合为a′,记为Γ(a1,a2,…,am)=a′. 例1 在深层句法处理中,在聚合操作下,定冠词“the”的属性全集A(the)映射为特指属性Spec, 加载到“the”的支配者实体e中. 例2 在“walk in the street”的深层句法处理中,在聚合操作下,根据属性集{A(in);street的句法依存属性:(“in”的PREP依存者)},将“street”的句法依存属性修正为:(“walk”的LOC依存者). 根据参与聚合的属性是否来自同一实体,聚合又细分为同体聚合和异体聚合两类.同体聚合仅在同一实体内进行属性集成(如例1);异体聚合则需从多个实体中抽取属性信息,加以集成(如例2). 3) 析合操作 在语言处理中,有时可由1个信息同时派生出多个共现信息,这些信息间具有内在关联性.析合操作的功能是由实体的1个属性一次性映射出k个属性,分布到n个实体上,而且,这k个新属性的生成不能通过相变操作的复用实现. 定义3 析合操作.e∈E, aj∈A(e), 若由aj可一次性映射出新属性信息集合{a′1,a′2,…,a′k}, k>1, 且{e′1, e′2,… ,e′n}E,n≥1, {a′1,a′2,…,a′k}∪ni=1A(e′i), a′i∈{a′1,a′2,…,a′k},Ρ(aj)≠a′i,则称aj析合为{a′1,a′2,…,a′ k}, 记为Φ(aj)={ a′1,a′2,…,a′k}. 例如,在析合操作下,由实体e的特指属性Spec映射出定冠词实体“the”的全部属性A(the)(即合成实体“the”). 4) 裂变操作 在语言处理中,有时需要由实体集中的m个属性一次性映射出k个属性,分布到n个实体中, m,k>1. 新生成的这k个属性的耦合程度可分为紧密耦合和松散耦合两类. 在松散耦合的属性集中,各元素之间相互关系较小,1个属性元素的取值或变化与一些信息元素无关.例如,单复数信息、时态信息、指称信息之间的相关性较弱.松散耦合的属性集可以划分为几个独立的子集,每个子集的生成分别通过相变、聚合、析合的复用实现. 在紧密耦合的属性集中,各元素之间具有极强的关联性,相互制约,无法分别由相变、聚合、析合的复用实现,它们是同生同灭的.我们将这类由m个属性生成1个紧密耦合属性集的多对多映射称为裂变. 定义4 裂变操作E′={e1,e2,…,en},n≥1.E′E.{a1,a2,…,am}∪ni=1A(ei).若由{a1,a2,…,am}可映射出新属性集合{a′1,a′2,…,a′k, k>1, 且{e′1, e′2, … ,e′sE,s≥1,{a′1,a′2,…,a′k∪si=1A(e′i),{a′1,a′2,…,a′k为紧密耦合属性集合,则称{a1,a2,…,am}裂变为{a′1,a′2,…,a′k,记为Ψ(a1,a2,…,am)={a′1,a′2,…,a′k }. 例如, 在 “I have finished the work”中,在表层句法结构向深层句法结构转换中, 由属性集合M={A(have); 实体finish的句法依存属性:(have的AUX型依存者); 实体I的句法依存属性:(have的PRED型依存者)}可派生出属性集合N={实体finish的句法依存属性:(总支配者);实体I的句法依存属性:(finish的PRED型依存者)},这是一个裂变操作,即Ψ(M)= N. 按照参与裂变的k个属性是否来自同一个实体,又细分为同体裂变和异体裂变两类.同体裂变仅在同一实体内进行属性集成;异体裂变则需从多个实体中抽取属性信息,加以集成. 综上,相变、聚合、析合、裂变从属性派生角度,概括了在语言处理的某一时刻,属性之间的关联模式: * 1个属性独自激发了1个新属性信息的生成——相变,其实质为受限1对1映射; * 多个属性合作激发了1个新属性信息的生成——聚合,其实质为受限多对1映射; * 1个属性独自激发了多个新属性信息的共生——析合,其实质为受限1对多映射; * 多个属性合作激发了多个新属性信息的共生——裂变,其实质为受限多对多映射; 在语言处理中,属性级信息处理由上述4类操作实现.这4个操作相互独立,每个操作不具有再分解特性,即裂变不能分解为多个相变、聚合、析合的组合序列,聚合、析合也不能分解为多个相变的组合序列.从这个意义上讲,4类基本属性派生操作均为原子映射,任1个多对多属性映射均可分解为上述4类基本操作的组合序列.尽管在不同的表现层上,操作对象、操作结果将随具体语言处理任务的不同而变化,但操作的计算功能、应用模式均不变,适用于各类属性信息的集成处理.因此,在语言知识处理器的构建中,笔者以这4类基本操作为基础,组建各类标准功能部件,完成相应属性信息处理.描述属性派生的特定语言学部件则表示成上述基本操作的组合序列.基本操作功能部件独立于更综合的属性信息处理,可以被各种处理部件重复调用.功能部件的使用提高了知识处理的通用性和逻辑透明度,有利于建立更经济的知识处理模式、更通用的信息描述机制.
2 实体转化运算集
在语言层次模式中,各表现层上的结点均由词汇或概念实体集组成.每个实体具有特定的实体结构和属性信息集.从宏观上看,各层表达结构的转换表现为实体转化和实体间关联状态的转化.因此,本节从实体级上研究语言处理的另外1类运算——实体转化运算. 实体的转化过程涉及实体结构的生成(G)和实体属性的示例(I)两类活动.实体结构的生成指为每个实体建立1个信息结构,用于保存各类相关属性信息.实体属性的示例指确定实体各属性的具体取值.属性示例由实体属性派生操作实现,借助虚相变可继承已有属性信息,借助实相变、聚合、析合、裂变的组合序列可求解未知属性信息.G活动和I活动在实体转化过程中既可同步完成,也可异步完成.例如,在生成新实体结点时,可填充它的全部属性信息,如由泛指特性生成新冠词结点“a”的同时对其属性全集进行充分示例.因此,笔者在实体级上分出2类基本的实体转化运算:创建操作和填充操作. 定义5 创建操作.生成实体结构,同时对实体的部分属性或全部属性进行示例. 在语言处理中,时常需要生成新的实体结点,例如,表层句法结构需要新建虚词结点(如介词、冠词等);在词汇-概念映射中,需要建立深层句法结构的开放类词汇结点(如名词、动词等)和语义表达式的概念结点.这些实体结点的建构由创建操作完成.创建操作的结果是出现1个新的实体结构,该结构的属性信息可能全部已知,也允许存在未知属性信息,因此,创建操作被分为完全创建和有损创建.完全创建在生成实体结构时,对全部属性进行示例.有损创建生成的实体结构含有未知属性,需要进一步求解. 定义6 填充操作.将a填充到e的实体结构中相应属性域的操作称为填充操作. 填充操作是指对已存在实体结构进行属性示例. 这是最常见的一种语言处理.当实体结构中存在未知属性时,属性派生操作生成相应新属性值后,由填充操作完成属性示例.显然,填充操作没有生成新结构的能力,只能以已存在的实体为操作对象. 创建操作和填充操作的引入, 有助于进一步的认识2类常见的实体转化——特化和概化. 语言层次模式的词汇层、句法层、语义层分别从不同侧面描述同1个句子[4].尽管句子的信息在各表现层上是守恒的,但信息的存在形式常常变化,同一信息有时以独立完整的实体形式出现,有时以1个属性值的形式依附于其它实体.例如,表层句法结构的结点为句子的全部词汇集,而深层句法结构的结点集则仅为实词集合.从表层句法结构向深层句法结构转换时,某些虚词实体必须转化为属性信息;当从深层句法结构向表层句法结构转换时,一些属性将以实体结点的形式更加显式地出现在表层句法结构中.这形成了2类常见的实体转化:特化和概化. 定义7 特化.1个实体的某个属性转化为另1实体的全部属性. 定义8 概化.1个实体的全部属性转化为另1实体的某个属性. 显然,特化是通过析合操作在创建中完成属性示例的;概化是通过聚合操作完成属性示例的, 其转化过程既可是创建, 又可为填充. 例如,将A(the)概化为其支配者的特指属性Spec时,只需填充其支配者的指称属性.特化和概化从属性级上看,是互为逆运算的,因为二者均描述了属性全集与单一属性之间的相互映射,1个为典型的聚合操作,1个为典型的析合操作;但从实体级上看,则不一定是互逆运算,因为当概化操作仅含有填充操作时,概化和特化的操作对象、操作结果并不互逆.因此,在实际应用中,区分实体级和属性级2级操作是十分必要的. 在语言处理中,并非所有的属性都能转化生成1个实体,因此,本文引入实体引子概念来描述那类能引发实体生成的属性(如泛指/特指等).根据属性派生操作中是否含有实体引子,可将属性派生操作分为强操作和弱操作(即强(弱)聚合、强(弱)析合、强(弱)裂变).强操作将创建新的实体,弱操作则不产生新实体. 定义9 实体引子.能在属性派生的同时,引起创建过程的属性,称为实体引子.由全部实体引子组成的集合记为EA. 定义10 给定属性派生操作f( M )=N,f∈{Ρ,Γ,Φ,Ψ},M,N均为属性集合,则 (1) 若a∈M,且a∈EA,则f(M)=N为强操作. (2) 若ai∈M,aiEA,则f(M)=N为弱操作
3 结 束 语
本文从属性和实体2个角度系统定义了语言处理的2类基本运算集.语言知识处理器以这些操作为基础组建各类标准功能部件,基本操作功能部件独立于更综合的信息处理,可以被各种处理部件重复调用,这有助于建立更通用的知识处理模式和信息描述机制. 由于知识描述粒度和黏着度的不统一,语言知识处理中时常出现操作信息冗余现象,例如,1条规则被另1条规则所覆盖或者2条规则的大部分功能相互覆盖.根据信息经济原则,只有在操作中利用最少的信息派生出最多的新信息,才能降低知识冗余.因此,在知识描述中,应该关注操作信息的饱和性,映射规则的操作对象集应充分反映语言学共性知识,准确揭示属性集合的必要生成条件集; 同时, 还应确保属性派生操作结果饱和性, 以减少多义现象和信息损失,否则将无法达到最大的信息覆盖能力,这极易导致“1条规则被另1条规则所覆盖”的信息冗余.总之,在语言处理中,应尽量使用具有饱和性的基本操作,以降低信息处理的冗余性,扩大知识描述的适用性,提高处理效率. 第一作者 女 28岁 博士后 100083 北京
参 考 文 献
1 姚天顺,王宝库.自然语言理解——一个让机器懂得人类语言的研究.北京:清华大学出版社,1995 2 Guo Honglei,Yao Tianshun.The architecture of Chinese-English Bi-direction MT system CETRAN2.In: Dong zhendong, Changning Huang,eds. Proceedings of the International Conference on Chinese Computing'96 (ICCC'96).Singapore: Insititute of Systems Science,National University of Singapore, 1996.218~225 3 Ignor A MelCuk.Dependency syntax: theory and practice. New York : State University of New York,1992 4 郭宏蕾,姚天顺.一个自然语言通用处理模式及实现机制.软件学报,1996,7(863专刊):39~44
|