您现在的位置是：论文诗词网 > 成语词典 > 动植物百科 >

自然语言书面理解系统

2021-05-27 23:14动植物百科人已围观

简介[拼音]：ziran yuyan shumian lijie xitong [外文]：natural language understanding systems 指人和计算机之间用自然语言书面对话的系统。从20世纪60年代初开始研究，早期使用关键词和模式匹配的方法，...

[拼音]：ziran yuyan shumian lijie xitong

[外文]：natural language understanding systems

指人和计算机之间用自然语言书面对话的系统。从20世纪60年代初开始研究，早期使用关键词和模式匹配的方法，计算机只能应答有限的、固定格式的输入句，没有句法、语义分析和知识推理。70年代初取得突破。70年代中期到80年代初又继续有所进展。建成的系统较多，各自使用了不同的语法理论和计算机程序。其中有代表性的分述如下。

J.维诺格拉德的语言观及其SHRDLU系统

维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统，把语言分析和知识推理综合在一起，在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为，人听到或看到一个句子是运用了全部知识和智力来理解的，包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是“语言究竟是怎样组织起来表达意义的？”而不是“怎样分析一个孤立的句子结构？”句法必须跟语义、推理密切配合，语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁，语义学的目的是研究意义的表达形式。

SHRDLU系统采用韩礼德的“系统语法”，计算机根据句法特征识别输入句的态、式、语气等，按句型逐层分解到词为止；语义分析和知识推理同时配合，以排除歧义和误解。获取语义信息后查询知识库，执行指定的操作或作出应答。这个系统贮存 200条英语单词，能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木，一个放积木的盒子和一只机械手，因此一般称之为“积木世界”。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木，回答某块积木之上是否放着某种颜色的积木等。

W.A.伍兹的扩充转移网络及其LUNAR系统

伍兹于1970年提出扩充转移网络（简称ATN），1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法，也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系；根据转换规则可能生成的语句又过多，构成“组合爆炸”，而把生成语句的过程颠倒为分析语句的过程困难也不少，因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络，同时设置了某些操作技术，使上下文相关，并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则，充分发挥转换语法的效能。图1～3是简化了的扩充转移网络示意图。

图1是句型网络。S是初始态，有两个走向：句首是名词短语就转入状态q₁，如为助动词则转入状态q₂。q₁又有两个走向：连接动词到达q₄，或连接助动词转入q₃再连接动词到q₄。q₄是终结态(用斜线表示)，句子可在此结束(不及物动词句)，也可再连接NP到达终结态q₅(及物动词句)。q₅后还可能连接多个介词短语再回到q₅。图2是名词短语网络。NP是初始态，也有两个走向：一条线路以限定词开始转入状态q₆，q₆可连接多个形容词之后再连接名词到达终结态q₇，q₇之后还可连接多个介词短语再回到q₇。另一条线路是专名或代词，直接到达终结态q₈。图3是介词短语网络。PP是初始态，由介词转入q₉，连接名词短语到达终结态q₁₀。

LUNAR系统贮存英语单词3500条，主题是查询阿波罗登月舱带回的月球泥石采样的化学成分，为地质学家检索信息服务。语句输入，由ATN分析，求出深层结构，凭以解释语义，并将语义信息编译成一种谓词演算查询语言，检索数据库求得答案输出。例如人问：“有多少种角砾岩含有橄榄石？”机答:“5种。”如再问是哪5种，即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法，此后建成的不少系统，包括语音理解系统HWIM在内都以 ATN为基础。

R.C.尚克的概念从属论及据此建成的诸系统

美国学者尚克于1973年提出概念从属论（简称CD），同时在美国斯坦福人工智能实验室建成MARGIE系统；1975年尚克和他的同事在耶鲁大学建成SAM系统，1978年建成PAM系统，1979年建成FRUMP系统，1980年建成IPP系统。

CD的主要内容是:人脑中存在着某种概念基础，语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构，能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用，无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数“语义基元”，表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929～　)的“格语法”，区分 5种格关系。概念结构用图像标记法构成 CD表达式，而句中任何隐含的信息都必须在CD表达式中表现出来。例如：John eats the ice cream with a spoon(约翰用勺吃冰淇淋）的 CD表达式为：匔表示施动关系，INGEST表示“摄入”的语义基元。包括“吃、喝、吞、咽……”等词。表示受动关系，O是宾格。表示方向关系，D是方向格。表示工具关系，I是工具格。右端出现语义基元MOVE(移动)，右下角出现名词 mouth(嘴)，而句中并无这类词语，因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别，在解释语句和演绎推理时获得显著成效。根据上述，将概念从属关系编入词典。语句输入，由句法指引找出主要动词和名词，查词典获得解释。例如输入Johnate the steak，查 eat条的注解为：代入句中名词(X代以John，Y代以steak）即可得到理解。

MARGIE系统按照概念从属论建成，是一个推理和语句解释的模型，能根据输入句推论出若干事实，包括原因、结果等。例如:输入“约翰给了玛丽一些阿司匹林”，计算机即输出：“约翰相信玛丽需要阿司匹林。玛丽病了。”语句解释即计算机能用其他词来解释输入句。例如输入：“约翰杀了玛丽，是掐死的。”输出则为“约翰扼死了玛丽。约翰掐住玛丽，玛丽死了，因为她不能呼吸”。

此后尚克学派将概念从属论加以发展，用于篇章分析，提出“模本”、“计划”、“目的”和“主题”等概念，使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列，如“餐馆模本”包括顾客走进饭馆，坐在餐桌前，服务员送菜单，顾客点菜，吃饭，付款等。计划是完成目的的手段，如“去某处”是总目的，完成这一目的的各种方法如骑车、坐公共汽车、开小卧车?仁亲幽康模α腥胱苣康南钕隆Ｖ魈庠蚴潜尘靶畔ⅲ删菀栽て谛形哪康模纭鞍橹魈狻币舜吮；ぁ⒈苊舛苑皆馐苌撕Φ哪康摹?

SAM 系统根据模本建成，能解释故事情节，回答问题，进行推论，并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入“约翰走进一家饭馆。他坐了下来。他生气了。他走了。”输出为：“约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。”计算机推论约翰离开饭馆是由于没有得到服务。因为“餐馆模本”中有服务员送菜单一条，而输入句中无此内容，却有约翰生气的句子。

PAM 系统由美国学者R.威林斯基建成，以目的和计划为理解故事的基础。也能解释故事情节，回答问题，作出推论和摘要。但无需模本中的事件序列，只提出目的和计划。如营救一个被巨龙拖走的人，只在“营救”这个总目的项下列举若干子目的，包括到达巨龙巢穴和杀死巨龙的各种方法，即可预期下一步的行为。同时能根据主题推论目的，例如输入“约翰爱玛丽。玛丽被巨龙拖走了。” PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容，但据“爱情主题”可作出推论。

尚克学派又进一步研究语言理解和记忆的关系，概括各种具体知识结构为一般经验，综合句法、语义、知识、推理为一体，再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词，对输入故事无需逐字分析，而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。

G.亨德雷克斯的LIFER分析法以及据此建成的系统

LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成，提供了部分英语句型的句法－语义框架，同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树，〈L.T.G〉是 LIFER top grammar 的缩写，表示初始符：其中〈ATTRIBUTE〉（属性），〈PERSON〉（人名）等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为“语义语法”。用户可自行定义语义成分，构成语句以切合自己的用途，因而任何用户、任何主题均可应用。例如定义〈PERSON〉＝｛John，Bill，Mary｝，〈A-TTRIBUTE〉＝｛height，age， tall｝，即可理解输入句 What is the age of John?（约翰的年龄是多少?)Whatis Mary's height？（玛丽的身高是多少？）How tallis Bill? （比尔多高？）

根据 LIFER分析法已建成若干系统，包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977)，能联结美国各地许多计算机的数据库，用户无需知道数据贮存在何处及其贮存方式，直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型，计算机能根据图像回答问题。例如指着地图问：“从这儿到那儿的距离是多少？”

预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展，并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解，综合模型如斯坦福研究所的 HAWKEYE。此外，联邦德国汉堡大学于1981年建成一个“交通动态对话系统”，由彩色电视输入动态情景，用德语问答，主题是询问街上的交通情况。关于汉语书面理解的研究，见汉语书面理解系统。

参考书目