基本核心词词义的数量及其内部关系
对50种语言词义数据的分析探索∗
许可冉启斌李坤怡∗∗
摘要本文收集50种语言中60个基本核心词的词义,通过数量分析㊁引申能力赋分㊁网络图谱等方法对其词义数量和关系进行探索㊂文章认为,基本核心词义项数量均值为2 3个(最多达到28个)㊂动词㊁形容词平均义项数量最多,名词㊁否定副词随后,数词㊁代词较少㊂对不同引申深度的义项进行赋分后,6个词类的分值顺序与义项数量相同,但具体词排名不完全一样㊂词义网络图谱中,基本核心词被聚为12小类,词类对聚类有影响但不起决定作用㊂动㊁名㊁形3个词类形成较大词团,词类内通过[ʃ趋向](动词)等特征聚为小类㊂大㊁小类之间,有些词有连接不同类别词的作用,如hand连接动词㊁身体部位名词等;其他一些基本核心词也可以跨词类引申,但没有类似作用㊂
关键词词义类型基本核心词词义引申数据库可视化
引言
词义类型学(lexical semantic typology)是研究不同语言如何将语义材料转化成词语的特别方式①,其主要目的在于通过对跨语言词义样本的收集和
比较,探索词义扩展的变异范围以及变异的限制,解释词义演变背后的规律
∗∗∗
①本文为国家社科基金项目 世界六十种语言基本核心词词义数据库 (项目编号:17BYY003)的成果之一㊂
许可,南开大学文学院博士研究生,主要研究方向为实验语音学;冉启斌,南开大学文学院博士研究生,主要研究方向为语言实验㊁语音计算㊁语言理论等;李坤怡,南开大学汉语言文化学院硕士研究生,主要研究方向为实验语音学㊂
Lehrer A., A Theory of Vocabulary Structure, in PÜTZ M.(ed.),Thirty Years of Linguistic Evolution:Studies in Honour of RenéDirven on the Occasion of His60th Birthday,Amsterdam:Benjamins,1992,p.249.
中国语言学研究(第二辑)
性,并通过对这些规律的原因进行解释,揭示人类认知的内在本质㊂①以具体范畴内词义的分化类型为研究内容,泰尔米(Talmy)对运动动词的研究较为经典㊂他将移动事件定义为 物体在一个稳定场所的持续移动 ,并对这类动词涉及的语义成分和方式进行要素分类,通过跨语言比较总结出 运动+路径  运动+方式或原因  物象+运动 三种词汇化模式㊂②类似的方法论指导下,身体部位词命名的蕴含共性③㊁数词的表达模式④等词义类型研究都有较为确切的证据和解释㊂国内如伍铁平⑤,蒋栋
元⑥,温凌云⑦,蒋绍愚⑧,黄树先㊁欧阳澜⑨等也为具体范畴词汇的类型学研究做出了宝贵贡献㊂随着具体范畴词材料的不断积累,一些研究已经形成了范畴层面上的广度㊂如马克斯㊃普朗克研究所(Max Planck Institute)的语言与认知小组以播放 刺激 ㊁收集语言反应的方法,对跨语言的多个语义场内部分化类型的调查,就兼具深度和广度㊂
然而,一方面,这些研究仅在范畴数量上形成规模,对于范畴间词义类型的共性㊁个性研究得很少;另一方面,关注词义引申现象的类型学研究仍然较为匮乏㊂造成这一研究现状的主要原因显然在于词义系统的特殊性㊂由于词义系统具有复杂㊁异质㊁无形式标记等特性,加之不同民族文化等对词义的影响十分显著,人们难以对不同语言㊁概念设置统一㊁权威的词义收集和整理标准,建立支撑词义引申类型学研究的数据库㊂也正因如此,以往的词义引申研究无论是从共时㊁历时还是二者结合的角度出发,往往集中于对同一语言的词汇材料进行分析研究㊂近年来,一些大规模词义相关数据库的建立84
①②
③④⑤
⑥⑦
⑧⑨张莉:‘词义类型学研究“,‘语言研究“2013年第7期㊂
Talmy L., Force Dynamics in Language and Thought, in Jae Jung Song,Causatives and Agentivity,Lon-don:Routledge,1985(1),pp.293-337;Talmy L.,Towards a Cognitive Semantics(Vol.I):Concept Structuring Systems,Cambridge,MA:MIT Press,2000.
Anderson E.S., Lexical Universals of Body-Part Terminology, in Greenberg Joseph(ed.),Universals of Human Language(Vol.Ⅲ):Word Structure,California:Stanford University Press,1978,pp.335-368. Comrie Bernard, Numeral bases, in Matthew S.Dryer,Martin,Haspelmath(eds.),The World Atlas of Language Structures Online,Munich:Max Planck Digital Library,2011.
伍铁平:‘不同语言的味觉词和温度词对客观现实的不同切分“,‘语言教学与研究“1989年第1期㊂
base的形容词
蒋栋元:‘论颜及颜词的文化差异“,‘四川外语学院学报“2002年第2期㊂
温凌云:‘从英汉颜词语义认知模式看文化心理图式“,‘西南民族大学学报“(人文社科版)2007年第S1期㊂
蒋绍愚:‘五味之名及其引申义“,‘江苏大学学报“(社会科学版)2008年第3期㊂
黄树先㊁欧阳澜:‘雨与天“,‘民族语文“2015年第5期㊂
基本核心词词义的数量及其内部关系
为词义类型学研究扫除了一定障碍㊂但这些数据库的建设者从自己的研究目的出发对词义材料进行组织,并不能完全解决词汇系统内部组织复杂的问题㊂俄罗斯科学院语言学院安娜㊃扎利兹尼亚克(Anna Zalizniak)等关注词义转移的方向和类别,指导并建立了词义转移类型数据库㊂数据库内收集跨语言辞书中的词义信息,标注两个语义之间转移的方向㊁来源词和目标词的语义类和语法特征①,为词义研究提供了重要资料㊂但数据库中的语义关系
均以一对一的方式进行记录,不能直接观察语义演变中某词语的全部引申信息㊂
梅尔㊁利斯特㊁泰尔哈勒㊁厄本从对 词汇涵盖 (colexification)现象的观察入手,建立了CLICS数据库(https:///)㊂数据库对词汇涵盖(两个或两个以上意义被编码为同一个词)这一现象进行收集,以词汇形式存储信息②,仅体现词义的共时关系㊁共性特点,不能探索语义的历时演变及语言个
性差异,通过CLICS数据库得出的网络图受所选语言的影响很大㊂
自然语言处理对一词多义研究的需要也促进了大规模词义数据库的建立㊂以服务自然语言处理为主要目标,普林斯顿大学米勒(Miller)等倡导制作的WordNet数据库(http://wordnet.princeton.edu/)涵盖名词㊁动词㊁形容词㊁副词4个词类㊂数据库对同义词进行整合,形成同义词集,显示词集之间的网络关系㊂③WordNet工程巨大,资源丰富,对自然语言处理做出了很大贡献㊂但作为词义研究工具,WordNet包含的词类较少,下辖各语言数据库规模㊁制作方式也并不统一,收录的意义大多为语境义( 临时义 ),与词义类型学更加关注的 固定义 有很大区别㊂
可见,尽管跨语言㊁多概念的大规模词义数据库已有一些,但这些数据库仍然不能满足对词义引申类型学研究的需要㊂不同语言㊁词类㊁概念的词义引申存在什么样的共性与差异?共时层面上引申义项数量范围有多大?词义引申的深度㊁广度之间是否具有一致性?综合这些因素的词义引申能力受
94
①②③Anna A.Zalizniak,Bulakh Maria,Ganenkov Dmitrij,et al., The Catalogue of Semantic Shifts as a Data-base for Lexical Semantic Typology, Linguistics,2012,50(3),pp.633-669.
Rzymski C.,Tresoldi T.,Greenhill S.J.,et al., The Database of Cross-Linguistic Colexifications,R
e-producible Analysis of Cross-Linguistic Polysemies, Scientific Data,2020,7(1),p.13. Miller G.A., WordNet:A Lexical Database for English, Communications of the ACM,1995,38(11),pp.39-41;Fellbaum C., WordNet, The Encyclopedia of Applied Linguistics,2012.
中国语言学研究(第二辑)
到哪些因素影响?词义引申产生的聚类关系是否与传统词类具有一致性?这些问题关系到词义演化模式的某些本质特点,对于词义发展变化的基本理论㊁跨语言词义引申演化类型与共性㊁基本认知概念的发展演化模式㊁以词义多样性为基础的语言分类等研究都具有突出的意义,是词义类型学不可或缺的组成部分㊂
为此,我们吸收以往语言数据库的建设经验,为实现宏观层面跨语言㊁多概念㊁多词类的词义引申能力探索建立起一个基本核心词词义数据库,并以目前收录的50种语言各60个基本核心词的词义数据为例,对跨语言基本核心词的词义引申数量㊁综合能力㊁引申关系等表现进行初步的分析和探索㊂
一词义数据库概况
考虑到已有的一些数据库组织方式及其在词义研究方面的不足,我们对新建的词义数据库提出了以下设想:(1)由于词的数量十分繁多,不同语言之间的词汇差异巨大,数据库目前以基本核心词汇为对象,
以便体现词义㊁词义引申的核心特征;(2)适度㊁统一的义项划分和收录标准;(3)对足够多的语言进行采样,能够体现跨语言词义的共性和个性㊂基于以上3条标准,我们建立了基本核心词词义数据库(Sense Database of Basic Kernel Words Across the World's Languages)㊂①
从固有词义引申出新词义来表达新概念被看作词义引申的重要原因㊂②基本核心词汇不仅在跨语言层面上具有普遍存在于各语言中的特点,在具体的语言中也属于每种语言的基本词汇,具有全民常用㊁稳定和构词能力强等特性㊂作为人们最熟悉的词汇,基本词汇的引申不但代表了词义引申的核心特征,其引申能力理论上也反映了某种语言词义引申的一般情况㊂因此,基本核心词词义数据库以60个基本核心词构成的词表作为调查对象㊂核心词表以斯瓦迪士(Swadesh)最终版本的100个核心词为基础③,通过 基本 05
①②
③具体的收集㊁整理规则参见许可㊁李坤怡㊁冉启斌㊁黄玮‘跨语言基本核心词词义分析  以24种语言基本核心词义为例“,第十三届全国汉语词汇学学术研讨会会议论文,济南,2021年4月24日㊂陈殿玺:‘试探词义引申的途径和方式“,‘古汉语研究“1994年第S1期㊂
Swadesh M., What is Glottochronology? in The Origin and Diversification of Language,London:Rout-ledge,1972,pp.271-284.