The Pitfalls and Complexities of
Chinese to Chinese Conversion
汉字简繁转换的复杂性和陷阱
漢字簡繁轉換的複雜性和陷阱
unicode字符转中文
春遍雀来 (Jack Halpern)
日中韓辭典研究所 所长
華留萬陽貳 (Jouni Kerman)
日中韓辭典刊行會软件开发总工程师
0. 摘要
1.
2. 转换的四级
3. 讨论和分析
4. 转换的新技术
鸣谢
参考材料
附录
作者介绍
日中韓辭典研究所
(株)日中韓辭典研究所
The CJK Dictionary Institute, Inc.
352-0001 日本国埼玉県新座市東北2-34-14 小峰ビル 34F
电话048-473-3508    Fax048-486-5032
E-mail************    网址:
汉字简繁转换的复杂性和陷阱
春遍雀来日中韓辭典研究所 所长
華留萬陽貳日中韓辭典刊行會软件开发总工程师
0. 摘要
汉语有两种书面形式:中华人民共和国和新加坡使用的简体中文,和台湾、香港、澳门以及大多数海外华人使用的繁体中文。但是存在一种常见的误解,认为这两个体系之间具有直接的对应关系,相互转换只需要从一个字符集对应到另一个字符集就可以了,例如从国标码(GB2312-80)转换到大五码(Big5)
虽然很多代码转换工具实现了这种转换,但事实却是截然相反的。这两种体系在不同级别上都存在重要的差异,不论是字符集,编码,拼写法(字的选择),词汇(词的选择),还是语义(词义),都有着显著的差别。
随着东亚在世界经济里的地位日益重要,地方化公司和翻译公司都有着对中文简繁体转换的迫切需求,但也必须克服以下障碍:(1)现有的转换工具产生的结果不能令人满意;(2)缺乏发展好的转换工具所需的知识;(3)无法得到高质量数据的字典;(4)手工转换费用太高。
1996, 日中韓辭典研究所(The CJK Dictionary Institute, Inc.)开始深入调查这些问题,并建立了一个总括了中文简繁互转的数据库(300万条,且仍在发展中),其目的是要使转换软件的准确性接近百分之百.
这篇论文解释了涉及的复杂问题,并展示这项基于Unicode的新技术将如何大大减少中文地方化和翻译项目的时间和费用。
1.
1.1 历史背景
汉字在它几千年的历史中经历了许多变迁。很多书法风格,异体字,和字体设计都有逐步的演变。有些完整的,复杂的字体被提升为“正字”,而那些令人眼花缭乱、泛滥成灾的变体则往往被降级为“俗字”。
在中华人民共和国于1949年成立后不久,新政权就发起了一场积极的运动,贯彻大规模的书面语改革。在五十年代,和周恩来提出了简化汉字是一项应该优先完成的任务。1952年成立的语言改革委员会开始深入研究这一问题,并从事编纂简化字表的任务。
这些行动导致了许多书面语的改革,最重要的有:建立了一套标准化的罗马字系统(拼音),限制日常用字的数量,以及大大地简化了数以千计的字形。一度,这项运动的目的是完全废除汉字,以罗马字母表代之,但后来还是倾向于使用简化字形而放弃了这项政策。
随后几年出版了几种简化字表,其中最著名的是1964年出版的“权威”简化字总表,之后又重新发行了几次并作了次要的修改。最新版本是1986年出版的,收录了2244个简体字[简体字总表 1986]
台湾、香港和多数海外华人没有实行简化。尤其是台湾,还在严格地遵循着繁体的形式。台湾
教育部出版了几种字符表,例如有4808个字的“常用國字標準字體表”,作为正确字形的标准。
1.2 简体与繁体中文
虽然简体与繁体中文的最大区别在于字形,我们将会看到两者之间还有字符集、编码方式和词汇选择方面的差异。
从实用角度来说,简体中文一词通常指满足以下条件的中文文本:
1.字形:简体中文必须是用简体的字形书写的(除非不存在简体的形式)
2.字符集:简体中文通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)
3.编码:简体中文通常将国标码编为EUC-CN或用于互联网传送数据的HZ的文本。
4.词汇用法:词汇的选择采用中国大陆的用法。
与此类似,繁体中文一词一般指满足以下条件的中文文本:
1.字形:繁体中文必须是用繁体的字形书写的。
2.字符集:繁体中文通常使用大五码字符集。
3.编码:繁体中文通常编为大五码。
4.词汇用法:词汇的选择采用台湾或香港的用法。
以上只有第一条是必要条件。“简体”中文的定义决定它不能用繁体的字形书写,除非一个繁体字形不存在对应的简体形式。同样,“繁体”中文除了某些次要的例外情况(如某些专有名词)之外必须不能以简体字形书写。字符集和编码方式的限制要小一些,下面1.4节会讨论这一点。
词汇的用法上也有一些变化。例如台湾文本可能会包括某些中华人民共和国式的词汇,而新加坡的文本可能会采用台湾而不是大陆的计算机术语。尽管如此,总的来说简体中文和繁体中文两词的用法如上文所述。
1.3 问题本质
中华人民共和国的语言改革对书面汉语产生了重大影响。从处理中文数据的角度出发,最相关的问题有以下几个:
1.许多字形经过了较大的简化,以至无法辨认它们的繁体形式。例如,繁体中文中的变为简体中文中的
2.在很多情况下,一个简体字与多个繁体字对应(相反的情况较为少见),例如简体中文的与繁体中文的对应。根据上下文意思,通常只有一个是对的。
3.有时一个简体字与多个繁体字对应,根据上下文意思,每个对应的繁体都可能是对的。
4.简体中文使用的国标码标准与繁体中文使用的大五码标准互不相容,因此双方都产生了无数的漏字。
上述的第二条是中文简繁转换的关键问题,也是这篇文章的重点。在对此的讨论中采用的“经典”例子是繁体字。从词源学来看它们是两个不同的字,被合并成了一个简体字。下表展示了这个以及其它一个简体字对应到多个繁体字的例子。
1:简繁一对多的对应
简体源字
繁体标字
语义
繁体例子
Emit
出發 start off
Hair
hair
gān
Dry
乾燥 dry
gàn
Trunk
精幹 able, strong
gān
Intervene
干渉 interfere with
gàn
tree trunk
楨榦 central figure
miàn
Noodles
noodle soup
miàn
Face
面具 mask
hòu
After
後天 day after tomorrow
hòu
Queen
王后 queen
如上所示,成功地把这些简体字转换为对应的繁体字取决于它们的上下文,尤其是它们所在的词。转换往往不能仅从一个码点对应到另一个码点,而是必须建立在更大的语言单位上,比如词。
除上表之外,数以百计的其它简体字也与多个繁体字对应,产生了语义不清的以一对多的对应,只有上下文能决定它们的关系。在这篇文章里,这些对应被称为多字体的对应,因为一个简体字——书写单位——可能会与多个的繁体字对应,而相反情况也成立。
1.4 字符集和编码
这篇文章主旨不是对中文字符集和编码方法进行深入的讨论。小林剑(Ken Lunde)的重要著作 CJKV Information Processing 有对此的讨论。[Lunde 1999]这一节只简单地概括一些重要问题,因为我们的主要目的是论述更高一级的语言学问题。
简体中文通常使用国标码字符集,或其扩充版本国家标准扩展码,并通常被编为EUC-CN。在互联网上传送数据时,它常常被编为HZ,或是更早的zW。繁体中文通常被编为大五码,有时也被编为基于标准(Chinese National Standard) CNS 11643-1992字符集上的EUC-TW
在日本,有些文字处理系统通过JIS X 0208:1997字符集及其附加部分处理中文字符。同样,也可以把中文编为韩国的KS X 1001:1992字符集。但是,这两种情况都没有足够的简体或繁体中文字供日常中文之用。此外还有用来编辑中文的字符集CCCII(仍在使用的台湾早期标准),可见情况的复杂程度。
从简繁码转换的角度出发,一个重要问题是国标码和大五码互不相容。前者包括了6763个字,而后者有13053个字。国标码大约三分之一的字是大五码里没有的简体字。这一点导致了双方的许多漏字现象,如下表所示。
2:国标码和大五码的不相容性
汉字
国标码(EUC)
大五码
Unicode
*
C059
982D
*
B56F
767C
*
AD70
8A08
CDB7
*
5934
B7A2
*
53D1
BCC6
*
8BA1
B8C9
A47A
5E72
C0EF
A8BD
91CC