1.《汉语名词短句隐喻识别研究》全面地描述了汉语名词隐喻的层级分布。
隐喻被认为是人的一种思维方式,广泛存在于人类语言中,其类型之多、问题之复杂,至今还没有完全理清楚。探索性研究不宜全面铺开,需要确定重点。通过寻找隐喻的外部特征,全面描述汉语名词隐喻的层级分布,最终聚焦于汉语名词短语的自动识别:实践证明这个决策是可行的、明智的。在描写的基础上借助大量的统计数字来明确自己的攻关方向,这是值得推荐的宝贵经验。
2.注重隐喻知识资源的积累和加工,提出汉语隐喻知识库的建造方法。
随着大规模语料库的出现,关注从语料库中提取隐喻知识可以弥补基于规则方法建造的知识库之不足。作者勇于实践,研制了汉语名词隐喻词表。该词表是作者通过对《现代汉语语法信息词典》中的3万多个名词进行细致考察和潜心研究之后编制出来的,这对人们全面了解和认识名词隐喻,进行更深一步的研究是非常有价值的。汉语名词隐喻知识库是隐喻识别、理解与生成的重要知识资源。
3.重点探索了名词短语隐喻的识别技术,建造了规则和统计相结合的隐喻自动识别模型。
《汉语名词短句隐喻识别研究》特别重视各种方法的比较,在书中基于规则的方法和基于统计的方法都有体现,各有侧重,同时也使用了多种机器学习的分类模型,通过实验进行检验,并作了细致的分析与解释。这样的方法对于提高研究者的水平与能力是大有助益的。
正当辞牛岁、迎虎年之际,北京语言大学副教授王治敏博士发来喜讯,以她的博士论文《汉语名词短语隐喻识别研究》为基础的书稿即将由北京语言大学出版社出版,甚感欣慰。王治敏博士要求我为其写序,尽管我一向认为凭自己的学识难以胜任为他人著作写序的重任,但我还是答应了。这是平生第二次。第一次是为曲维光博士的著作《现代汉语词语级歧义自动消解研究》写序,当时是盛情难却。这一次有所不同,作为王治敏的博士生导师,应该是义不容辞吧。还有一层原因,我觉得可以顺便把这两本书作一个比较。
我将曲维光博士的著述比喻为在自然语言处理战场上“打攻坚战”,王治敏的博士论文则有点像“打前哨战”。为什么这么说呢?在《现代汉语词语级歧义自动消解研究》之序一中我写道:“当前自然语言处理研究的主攻方向,是让机器能够自动地识别和消解自然语言的歧义。曲维光博士的研究重点是词语级的各种类型的歧义消解,这是自然语言处理研究的基本问题,已经研究很多年了,但还没有彻底解决,甚至离彻底解决尚有很长的路要走。这种情况一方面说明,这里有创新的机会和发展的空间,另一方面也说明,创新和发展的难度很大。可以说,曲维光博士是在打攻坚战。”而隐喻的计算研究(包括隐喻的机器识别、理解与生成),情况就不一样了。至少到目前为止,在中文信息处理学界,隐喻还没有成长为受广泛注意的研究课题,鲜有研究成果发表。王治敏自2003年至2006年在北大攻读博士学位期问,选定隐喻作为攻关方向,并于2006年完成博士论文,环视中文信息处理的各个战场,将其工作比喻为“打前哨战”,也许还算贴切。
王治敏 , 女,博士,北京语言大学汉语学院副教授,硕士生导师,研究方向为计算语言学、汉语国际教育。目前主要从事隐喻计算、语言知识库、词汇计量研究以及对外汉语教学的理论研究与实践。在国内外核心期刊发表论文20多篇。
第一章 引论
1.1 问题的提出
1.2 隐喻的界定及研究方法
1.2.1 研究范围
1.2.2 研究方法
1.2.3 研究基础
第二章 隐喻计算研究的理论及方法
2.1 关于隐喻的认识
2.1.1 隐喻作为一种修辞现象
2.1.2 隐喻作为一种认知现象
2.2 西方隐喻的计算理解研究
2.2.1 规则推理模型的实现
2.2.2 以统计为手段的隐喻分析模型
2.2.3 隐喻知识库的建造
2.3 汉语隐喻的计算理解研究
2.4 隐喻计算研究的启示
2.5 本章小结
第三章 汉语名词短语隐喻结构研究
3.1 汉语名词隐喻的层级分布
3.1.1 构词层级
3.1.2 词汇层级
3.1.3 短语层级
3.1.4 句子层级
3.1.5 篇章 层级
3.2 中文信息处理中隐喻研究的定位
3.3 名词短语隐喻结构研究
3.3.1 n+n隐喻的构成特点
3.3.2 n+n隐喻的句法约束
3.3.3 n+n隐喻的语义类考察
3.3.4 隐喻表达的其他制约因素
3.4 名词短语隐喻所隐含的思维模式
3.5 本章小结
第四章 汉语名词隐喻知识的形式化
4.1 汉语名词隐喻知识库属性字段的设定
4.2 汉语名词隐喻词表的建造
4.3 汉语名词隐喻的概念映射
4.4 隐喻概念映射分库的建造
4.5 本章小结
第五章 基于机器学习方法+规则辅助的汉语名词隐喻识别
5.1 训练语料的获取
5.2 基于实例方法的隐喻识别
5.3 基于最大熵(MaximumEntropy)方法的隐喻识别
5.4 基于朴素贝叶斯(Naive Bayes)方法的隐喻识别
5.5 特征提取
5.5.1 简单特征的选取
5.5.2 辅助特征的选择
5.6 辅助特征对实验结果的影响及难点分析
5.6.1 最大熵模型辅助特征的选取实验
5.6.2 文学语料开放测试
5.6.3 隐喻交叉实验测试
5.6.4 难点分析
5.7 本章小结
第六章 n+n模式的隐喻识别
6.1 基于最大熵的n+n模式实验
6.2 基于CCD词典隐喻推理的设计原理
6.2.1 CCD词典的消歧策略
6.2.2 CCD词典的相似度算法
6.3 基于隐喻知识库的识别实验
6.4 本章小结
第七章 结语
7.1 本项研究的总结
7.2 本项研究的成果和意义
7.3 进一步研究计划
参考文献
附录1 汉语名词隐喻标注语料样例
附录2 汉语名词隐喻知识库样例
附录3 汉语名词隐喻知识库概念映射分库样例
后记
上述词语的隐喻表达频繁出现,用法相对稳定,而且具有这种特性的词语不是个别情况,词典编撰者通常会把隐喻表达所体现的含义标注在这些(源域)词语上,因此,在这个意义上,可以称之为词汇隐喻。
既然词汇隐喻所表达的含义在词典中已经沉积下来,是不是失去了描写的必要?研究是否应该更多地关注那些新生的隐喻?不可否认,在一定的语言环境下会有新的隐喻被创造出来,但是由于难以获得这样鲜活的语料,我们的做法是从大量的真实文本中挖掘、提炼已经沉积在文本中的隐喻表达,其中也包括在词典中有隐喻义项的词汇隐喻,有没有描写的必要还要看《现汉》对隐喻义项的描述是否能提供给计算机必要的知识。
目前《现汉》中对于隐喻义的描写基本采用一个比喻的解释,然后可能会提供一两个实例,如“大潮”除了一个本义外,还有一个隐喻义项:
比喻声势大的社会潮流:改革的。
该种解释是面向人的描写,人可以根据此种解释和相关的背景知识理解和扩展“经济大潮、商业大潮、文化大潮”等隐喻用法,但是计算机无法根据这条定义作相应的扩展。因此,此种简单的描述远不能满足计算机的需要。