
二 目前的机器是否真会“说人话”?
前文已经指出,NLP研究乃是AI研究的王冠,具有极大的理论综合性与市场应用价值。目前,也已经有大量的研究资源投入这个领域,产生了大量的商业产值。譬如,智能语音音箱、手机上装载的各种人机对话应用软件、“百度翻译”、“谷歌翻译”,都是此类研究的重要成果。但是需要指出的是,此类产品表面上的繁荣,并不意味着目下的NLP产品已经达到了“会说人话”的水准。其评判理由是:
第一,诸如“谷歌翻译”这样的机器翻译机制、“亚马逊理解器”(Amazon Comprehend)这样的文本信息挖掘机制、各种自动语音识别机制与各种各样的机器人聊天盒,都是针对不同的NLP任务而被设计出来的特定NLP机制,而不是某种面面俱到的针对所有NLP问题的一揽子解决方案。与之相较,对于一个完整的自然人而言,语义识别、语音识别、翻译等语言功能都是被集成到一个大脑上的,其各自运作背后均有一套统一的心理学与生理学规律予以统御。从便利角度考虑,我们当然也会期望这种整合能够在NLP中实现。换言之,就像一个仅仅能做翻译而无法将被翻译文本的深度信息用母语解说的翻译者,不能算作已经真正理解了被翻译文字一样,某种仅仅能做浅层翻译,而不能进一步解释被翻译文字的NLP机制,也不算是真正在“说人话”。然而,基于下述两点理由,在NLP中,这样的技术整合非但没有出现,而且似乎在可以预见的未来,也不太可能出现:(甲)具有不同分工的NLP机制往往分属于不同的公司,因此,知识产权方面的壁垒会导致彼此的融合困难;(乙)具有不同分工的NLP机制的研发往往本身又基于不同的技术原理,因此,原理方面的彼此不兼容也会导致彼此的融合困难。

图1-3 目前主流AI学科内部的学术分工略图1
1 该表的制定,乃是根据主流人工智能杂志《人工智能杂志》(The AI Journal)所给出的行业内部分类方案。转引自J. Hernández-Orallo, The Measure of All Minds: Evaluating Natural and Artificial Intelligence, Cambridge University Press, 2017, p. 148。
第二,就人类而言,人类的语言能力本身是用来“做事情的”,比如帮助语言使用者在决策活动中进行复杂的信息梳理,或者是帮助语言使用者去说服某人采取某种行动。所以,语言能力天然就与逻辑推理能力、他心感知能力等其他心智能力相互交织。然而,就目前AI工业的学术分工情况而言,NLP的研究与常识推理、非演绎推理等技术模块之间的关系是相对分离的,遑论实现前文所提到的“具身性”条件对于言语理解力的约束机制(参看图1-3)。所以,从“通用人工智能研究”——而不是“专用人工智能研究”——的角度看,目前的NLP研究乃是“无根”的。
第三,传统的AI研究主要分“基于规则的AI”与“基于统计的AI”这两大路数,而随着时间的推移,目前以深度学习技术为代表的“基于统计的AI”正在AI研究的各个领域大行其道,并在风头上全面压过了“基于规则的AI”(相关内容后文还要详谈)。但需要注意的是,深度学习技术在NLP领域内的运用,往往需要依赖网络提供大量的语料与学习样本,而这些语料与学习样本的最终提供者毕竟还是人类。因此,从哲学角度看,此类技术只能算是对于人类智慧的“反光映照体”(这就好比月亮无非是太阳的“反光映照体”一样),而无法真正成为语言智慧的根基。譬如,这样的技术很难在脱离互联网支持的前提下,自主地创生出对于输入语言刺激的恰当处理结果——与之相较,具有正常语言智能的人类却能在不上网的情况下进行流畅的语言交流。因此,目前的主流NLP研究乃是缺乏足够强大的“本地化信息处理能力”的。
第四,也正是因目前的主流NLP技术与大数据的信息采录具有非常密切的关联,一些在原则上就很难通过大数据技术获得的语言材料,也就很难获得目下主流NLP技术的充分处理。这些材料包括:(甲)人类语言中的“双关语”、隐喻、反讽等修辞手段。具体而言,对于这些表达式的意义往往需要结合当下的语境来进行分析,而无法通过基于大数据的归纳而被仓促决定。(乙)缺乏足够网络数据样本的弱势语言,如少数民族语言与地方方言。具体而言,对于这些语料的传统NLP处理方式往往是基于“语料库”的建设(此类建设需要人类研究者投入大量的精力遴选语料),而不能简单地诉诸网络资料,因为目前的网络语言乃是由英语、汉语等语言所主导的。然而,也恰恰是因为目前基于深度学习的NLP技术对于网络语料的依赖性非常高,所以,此类NLP技术恐怕很难支持主流语言与弱势语言之间的自动翻译处理。与之相较,具有适当语言智力的人类,却能比较快地通过语境信息提取而理解特定的双关语、隐喻与反讽的含义,或者通过一定时期的努力,仅仅通过少数几个教学者的帮助,学会一门方言。仅就这方面的表现而言,目前NLP的研究还远远没有达到人类语言智力的平均水平。
笔者认为,目前NLP技术所面临的这些问题,不仅仅基于这样或那样的工程学问题,而是有着深刻的哲学面向。换言之,在基本的哲学层面上所遭遇的迷思,是目下NLP研究陷入的种种工程学难题的总病根。下面就是笔者对这一问题的几点管见。