您现在的位置是: 首页 -成长专区 >>信息技术
人工智能传奇(中)
2008-11-10 11:56:16 来源:赛伯时空网
 


四、知识就是力量

“长江后浪推前浪”,1977年,曾是赫伯特·西蒙的研究生、斯坦福大学青年学者费根鲍姆(E.Feigenbaum),在第五届国际人工智能大会上提出了“知识工程”的概念,标志着AI研究从传统的以推理为中心,进入到以知识为中心的新阶段。人工智能重新获得人们的普遍重视,逐步跨进了复兴期。

在大学的一次讲演中,费根鲍姆向听众发起挑战:“各位正在研究博弈问题,下棋和逻辑推理都属于博弈。假如你们解决了下棋和逻辑推理,那么博弈问题也就得到了解决,各位正在做的仅此而已。请大家跨入真实世界,努力解决现实世界中的问题吧!”他具体介绍了他们开发的第一个“专家系统”,并提出“知识库”、“知识表达”和“知识工程”等一系列全新的概念。

要说明什么是“专家系统”,必须弄清什么是人类“专家”。一个人要成为专家,至少必须掌握某一学科渊博的知识,具有丰富的实践经验,能解决一般人不能够解决的疑难问题。专家的数量和质量标志着一个国家、一个时代的科学水平。

费根鲍姆构建的“专家系统”,就是要在机器智能与人类智慧集大成者──专家的知识经验之间建造桥梁。他解释说:专家系统“是一个已被赋予知识和才能的计算机程序,从而使这种程序所起到的作用达到专家的水平。”这种“专家水平”意味着医学教授作出诊断和治疗的水平,高级工程师从事工程技术研究和开发的水平,特级教师在课堂上传授知识的水平。专家系统是人类专家可以信赖的高水平智力助手。

人类专家的知识通常包括两大类。一类是书本知识,它可能是专家在学校读书求学时所获,也可能是专家从杂志、书籍里自学而来;然而,仅仅掌握了书本知识的学者还不配称为专家,专家最为宝贵的知识是他凭借多年的实践积累的经验知识,这是他头脑中最具魅力的知识瑰宝。在AI研究里,这类知识称之为“启发式知识”。

由于专家本人不一定了解电脑程序,构建专家系统还必须有所谓“知识工程师”参与,帮助领域专家从头脑中挖掘启发式知识,并设计知识库和知识推理程序。因此,专家系统又被称为知识工程,据说,这两种不同的称谓在英国和日本泾渭分明:英国学界崇尚科学,成为专家是人们追逐的境界;而日本学界推崇技术,工程师是人们向往的职业,于是,才有了“专家系统”与“知识工程”两种同义的名称。

1965年, 在斯坦福大学化学专家的配合下,费根鲍姆研制的第一个专家系统DENDRAL是化学领域的“专家”。在输入化学分子式和质谱图等信息后,它能通过分析推理决定有机化合物的分子结构,其分析能力已经接近、甚至超过了有关化学专家的水平。该专家系统为AI的发展树立了典范,其意义远远超出了系统本身在实用上创造的价值。在费根鲍姆发表演讲后, 专家系统如同雨后春笋迅速遍及世界各地。为继承DRNDRAL的衣钵,化学领域判断结构的专家系统大量涌现,有判断蛋白质结构的,有判定原子排列结构的,有推论未知化合物分子结构的,目前已呈汗牛充栋之势。此外,在极其广泛的领域, 人工智能研究者构建了不计其数的“电脑专家” 。 如数学专家MACSYMA,农业专家PLANT,生物专家MOLGEN,地质探矿专家PROSPECTOR,教育专家GUIDON,法律专家LDS,军事专家ACES、ADEPT、ANALYST等系统。

专家系统最成功的实例之一, 是1976年美国斯坦福大学肖特列夫(Shortliff)开发的医学专家系统MYCIN,这个系统后来被知识工程师视为“专家系统的设计规范”。MYCIN主要用于协助医生诊断脑膜炎一类的细菌感染疾病。在MYCIN的知识库里,大约存放着450条判别规则和1000条关于细菌感染方面的医学知识。它一边与用户进行对话,一边进行推理诊断。它的推理规则称为“产生式规则”,类似于:“IF(打喷嚏)OR(鼻塞)OR(咳嗽),THEN(有感冒症状)”这种医生诊断疾病的经验总结,最后显示出它“考虑”的可能性最高的病因,并以给出用药的建议而结束。

80年代以后的专家系统逐步朝着大型化、集成化发展,使它从狭窄的专业领域走向宽广的多科领域,知识工程开始具备了方法学的性质。例如,上述那个著名的医学专家系统MYCIN被研究者抽掉其具体医学知识内容而构成一个框架系统EMYCIN, 如果向其中充实其他学科的具体知识,它就能变成不同学科领域的专家。可以认为,EMYCIN成了一种“建造专家系统的专家系统”。

费根鲍姆是人工智能领域的后来者,他以“知识工程”的创新思想,最终跻身于人工智能一代宗师的行列。1994年,第二届世界专家系统大会又提出鲜明的主题:“专家系统向21世纪全面推进”,再次表明费根鲍姆倡导的知识工程在未来世纪强大的生命力。早在17世纪初,英国哲学家培根提出了“知识就是力量”的著名论断。面对人工智能学科的迅猛发展,费根鲍姆充满激情地补充说:“知识就是力量,电子计算机则是这种力量的放大器,而能把人类知识予以放大的机器,也会把一切方面的力量予以放大。”

五、会看会听的机器

1997年12月,美国微软公司比尔·盖茨第五次访问中国,为在中国举办的微软专业开发人员大会助阵。在清华大学等处的演讲中,盖茨先生一方面说到美国已有40%的家庭拥有个人电脑,一方面又反复强调这个数量还是太少。他认为,必须让电脑能够识别自然语言,才能使电脑走出专家的圈子,普及到每个家庭。当介绍到微软正在着手开发手写输入和语音识别软件时,比尔·盖茨当场为听众播放了一段电脑识别人体语言的录像,精彩的情节引起了与会者浓厚的兴趣。 人们看到一台电脑正在分辨人用点头或摇头表示YES和NO的动作,还有电脑跟踪人眼的指向,在眼睛的指挥下,下了一盘“三子棋”。

比尔·盖茨提及的人体动作识别、手写输入和语音识别,都属于人工智能模式识别的范畴, 它要在实现电脑与人交流的基础上, 使电脑变成像人一样“会看”、“会听”的“智能动物”。

人之所以能够根据外界环境做出相应的反应,是因为人可以感知纷繁复杂的信息并加以识别。电脑也需要有像人类那样的感觉器官接受信息,进而根据信息分辨和识别外界各种事物。目前在多媒体电脑里,我们已经为它配置了一大批“感觉器官”,即外部输入设备,如键盘、鼠标、扫描仪、触摸屏、话筒、数字摄像机……,类似于人的五官之类的东西应有尽有。然而,电脑把外界输入的有所信息统统都转换成比特方式储存,它自己并不知道“看到”和“听到”的是什么东西。

模式识别是近30年来得到迅速发展的人工智能分支学科。但是,对于什么是“模式”,或者什么是机器(也包括人)能够辨认的模式,迄今尚无确切的定义。这里,我们又一次遇到了如同定义“人工智能”一样的困惑。我们只能形象地解释说,人之所以能识别图象、声音、动作,文字字形、面部表情等等,因为它们都存在着反映其特征的某种模式。这种解释仍属同义反复,根本没有诠释模式的内涵和外延。连人工智能专家卡纳尔(L.Kanal)也认为:“如果一旦出现了对模式的定义并被证实能够推动理论的发展,那将标志着人类智力的一大进步。虽然如此,目前的局面并不影响模式识别在各领域中广泛的应用。”

电脑模式识别技术最初起源于图象识别的需要,比如协助警方根据照片从茫茫人海里搜寻某个罪犯,或者帮助医生把显微镜下观察的细菌形态进行分类,确认它是球菌、杆菌还是弧菌。严格地说,模式识别又不是简单的分类学,它的目标包括对于识别对象的描述、理解与综合。

如果不是电脑,而是人脑接受到视觉器官(如眼睛和视网膜)传递来的信息,它究竟是怎样识别和区分大千世界的万物呢?一种可能的解决方案是:图象上的每一点都用一个神经细胞与之对应并逐一判别,最后综合为整体;但是,既使只描述图象局部的大致轮廓,神经元的数目仍不敷使用。另一种可能的方案更符合实际:大脑感知的不是图象上所有的点,而是其轮廓中最典型的特征,如线段、角度、弧度、反差、颜色等等,把它们从图象中抽取出来,然后结合头脑中过去的记忆和有关经验和知识分析判断。“特征抽取”也是电脑图象识别的基础。若根据一张照片让电脑在一群人中间辨认出某个人,可以先把这张照片输入电脑,抽取照片上人像上的特征,比如鼻子、嘴巴、眼睛和轮廓特点,进行分类和加工,存放在机器里作为识别那个人的“模板”。然后,让所有的人都接受光电设备的扫描,把他们的图象与机器预先存放的“模板”一一匹配。只要待辨认的人躲在这群人中间,哪怕他化了装,留了长发,蓄了胡须,也逃不脱电脑的“火眼金睛”。这种图象识别方法又称为“模板匹配”,它已经广泛运用于公安部门识别犯罪嫌疑人的侦破工作。

有消息报道说, 1990年日本研制的人像识别机,可在1秒钟内中从3500人中识别到你要找的人。1997年我国武汉市公安部门,也首次成功地运用这项技术破获了一起犯罪案件。此外,用电脑识别指纹的技术已日趋成熟,美国、日本等发达国家正在运用电脑管理上百万甚至上千万人的指纹档案, 世界上最快速的指纹识别系统,可以在0.1秒内查证出某个人的相关资料。近年来,由于互联网络的兴起,指纹识别的应用已经扩展到金融、出入境、户政、上下班打卡等管理工作,指纹将作为辨别个人身份的特殊“印章”。

进一步“使电脑能够辨认人的脸部和表情,”正如《数字化生存》作者尼葛洛庞帝教授指出的那样,“是一个令人生畏的技术挑战。”据说在八十年代末期,日本研制了一个根据人脸辨别出不同人种的识别程序,并将它送到国际智能学术会议上展示。一位黄皮肤黑眼睛的日本人上前接受检验,电脑正确地指出“这是日本人”。可是,当一位金发碧眼白皮肤的西方学者第二个接受检验时,电脑经过长时间的“思考”后,居然显示出“这不是人”的结论,引来满场大笑,程序设计者赶快把程序语句修改为显示“不认识”,可这也于事无补。

图象模式识别技术比较成功的运用领域是文字识别。如果把每一个中文汉字或西文字母都视为一个小图形,模板匹配的方法自然可以移植到文字识别过程中。目前, 印刷体文字识别软件早已经进入商品化阶段,被称为OCR光学字符识别软件。通常可将书籍、报纸等印刷品上的文字用扫描仪输入,首先经过特征抽取处理,例如,某字的笔画有几笔,收尾端点有几个,拐角有多少等等。在电脑里已经预先保存了各种字的图形和它们的特征,也称为“模板”,全部模板就构成一部“模板字典库”。由于要考虑字体、字号、纸张、油墨等因素影响,每一个字都有若干套不同的模板。接下来就是将抽取到的文字特征与模板字典逐一匹配,直到在字典库中寻找到最接近的模板为止。运用这种方法,对于印刷体文字,电脑能够以“一目十行”的速度进行阅读。此外,实时跟踪人手写字的笔画顺序来识别手写文字的模式识别技术,也已经达到实用化程度,诸如常见的汉字笔输入软件。

不过,目前难以攻克的技术难关是所谓“脱机识别手写文字”,即让电脑看懂事前写在纸上的手写文字。如果也采用类似印刷体文字识别的模板匹配方法识别手写汉字,由于每个人的手写字体和书写习惯绝不会完全相同,12亿中国人就需要12亿套模板,每套模板都必须储存数以万计的汉字,叫电脑从何匹配?为了做好手写汉字脱机识别的基础工作,我国科学家曾从不同范围、不同职业、不同文化程度的大量书写人员中选择了一批有代表性的典型样本,建立了1000套样张的手写汉字样本库,每套样张均包括近4000个常用汉字。虽然这是一项浩瀚的工程,但在脱机手写汉字识别研究进程中,也仅仅走出了一小步。

人类相互之间交流思想,除“读写”之外的重要途径是“听说”,电脑语音识别理所当然被列为与图象识别同等重要的人工智能技术。阿拉伯神话《天方夜谭》描写说,阿里巴巴大声喊道:芝麻,开门吧!大门立刻应声而敞开。用口令控制电脑的动作,或者根据口述声音录入文字,设计出“会听话”的电脑,同样是人工智能多年来追逐的目标。就电脑处理而言,声音信息与图象信息并没有太大的差别,语音识别方法以及面临的难题基本上大同小异。与“视觉”输入设备扫描仪对应的“听觉”输入设备是话筒,语音识别的基础技术也是模式识别。

通常,每个人说话的音色和音调都有一定的差异,发声频率各不相同。人脑对语音似乎有一种自适应的能力,既能区分不同性别不同年龄的语音差异,又能调整为能够理解的基本音素,从而听懂各色人等说出的话语。采用模板匹配方式的电脑不可能具备这种本领,它通常只能“听懂”特定某人的声音,而且是经过了一段时间“学习”的结果。学习过程称为“训练”,即对着电脑大声重复地讲述某些字词,直到它把这些字词的声音频谱特征“记住”,存放在参考样本库作为识别这个字词的模板。如果换了另一人说话,电脑就不能正确地识别,这就是对说话者的依赖性,也叫“认人”的识别系统。此外,语音识别对说话者使用的词汇必须作出限制,否则要求电脑具有极大的存储容量和极高的处理速度。根据语言学家估计, 电脑若要听懂经常使用的2万个英语词汇的普通人说英语,需要达到每秒执行1000亿条指令的速度,大约是我国研制的银河Ⅰ号巨型机的1000倍。

1997年,一年一度的美国Comdex世界电脑大展展示了迄今为止最先进的语音识别技术。过去的识别软件人们必须学着像机器人那样说话,以便在字与字之间留出停顿;目前出台的识别软件大幅度提高了准确性,允许用户以正常的语音语调输入。但是,这些软件仍需要一个耗时较长的人机培训过程,以便电脑对用户语音特点进行记忆。也就是说,这些电脑的“听觉”仍然是认人的,并且只“听得懂”规定的词汇,不可能陪你海阔天空地侃大山。据报道,美国IBM公司积26年语音技术研究之功底,针对比较流行的7种国际语言开发了商品化的语音听写软件,技术处于国际领先地位。当年10月,该公司率先推出了第一台非特定人连续语句的中文语音识别系统Via Voice4.0,配置了用于听写的语音感知字处理器,实现了汉字输入“动口不动手”,每分钟可输入汉字200个以上。但是,即使你用标准普通话讲话,仍然需要随时人工干预纠错;而操方言讲话者,则需根据“口音适应”提示,至少需要54句话、40分钟或一个小时的训练时间,即通过训练使电脑适应你的口音,不断更新储存在内存里的个人语言模板库,这种软件也没有完全脱离“认人”的约束。

直到1998年12月,IBM公司发布了代表中文语音识别技术真正进入实用的第二代技术ViaVoice98,词库量是ViaVoice4.0的三倍,同时增加了语音导航功能;在普通话的基础上能适应广东、四川、上海三种口音,识别率提高了20个百分点以上,平常速度口音读一般文章的识别率达到了85%~95%,并具备自适应功能,快速口音适应只需训练5个词、3句话,5分钟左右即可建立一个语音模型,使中文语音识别技术取得了实质性突破,语音识别终于走到了用户面前,使人们感到上下求索后初见光明的兴奋。

至于“会说话”的电脑,目前基本上有两种解决方案,其一是“真人发声”,即事先录制好人说的话语,再由电脑来“鹦鹉学舌”,这当然只能局限为某些特定的话语;其二是语音合成,某些文字校对软件已经在使用这种技术。电脑合成的语音听起来就像在“念字”、“说词”而不是“说话”。不信你可以试着运行市场上发售的一些文字校对商品软件,由于无法做到抑扬顿挫、声情并茂的诵读,电脑单调的念白实在令人大倒胃口。经过多年努力,电脑说话的能力已经越来越强,然而,要想象赵忠祥那样动情地讲解《动物世界》,或者像宋世雄那样铿锵有力地解说足球比赛,这些语音合成技术产品显然还难以胜任。

同样是在1998年,中文语音合成技术也取得了实质性的突破。令人欣慰的是,在这一领域的成功者是我国国家863计划专家组。863计划先后支持了清华大学、中科院声学所、中国科技大学等八家单位进行语音合成技术攻关。中国科技大学人机语音通信实验室,在十几年语音技术研究和积累的基础上,毅然抛弃了国际通行的算法,独创了以“人声道模拟技术”为基础的KD—863系统,一举突破了语音合成清晰度和自然度的制约瓶颈,将语音合成技术推进到应用的水平。1998年3月,该系统被评为唯一“达到实用化水平的产品”,其语音清晰度达到了95%,自然度达到4分(5分为标准播音员水平)。1998年初,以国家智能计算机中心等单位组建的天音软件公司,迅速完成了中文语音合成技术产品的转化,推出的“天音话王”软件,具有语音校对、文稿朗读、标准普通话学习等功能,率先让电脑开口说出了中国话。1999年,该公司与IBM合作,又推出了代表中文语音识别和合成技术最高水平的产品——“中国话王”,向着全方位应用大踏步地迈进。

人工智能模式识别的进展,已经在一定程度上使电脑具备了“听”、“说”、“读”的能力,但距离理想的目标还有较长的路程。对于人类来说,哪怕你把字写得龙飞凤舞,哪怕你把话说得含糊不清,我们也能根据对上下文的理解做出正确的识别,它表明人脑模式识别的方法,不是或者不完全是什么“模板匹配”。对与模糊信息的识别处理,人脑比电脑要擅长得多。此外,电脑储存的模板库或样本库,与它的判断识别机构两相分离,当模板库容量十分庞大时,搜索匹配就显得力不从心;而人脑记忆的知识与其判断机构浑然一体,它的模式识别是寻找、运用知识的思维决策。

从广义上理解,“模式”普遍存在于各种事物之中。人或者电脑下棋,是对着法和棋局模式的识别;人或者电脑诊断疾病,是对病人症状和病理模式的识别。此外,地质探矿、天气预报、产品质量检验……乃至市场预测、经济决策等等,都有自己的不同的模式,模式识别是人类思维中最常见的过程,只不过没有被人们意识到而已。为此,在1973年召开的模式识别第一次国际学术会议基础上,成立了国际模式识别协会(IAPP),并决定每隔两年召开一次国际会议。一位专家曾经指出:“模式识别是本世纪雄心最大的学科,需要电脑科学家、数学家、生物学家、心理学家、哲学家和社会学家的通力合作。”会看会听会说的机器已经现出希望的曙光。