unicode汉字编码
原来我使⽤的⼀直是\u4e00-\u9fa5,今天在匹配中⽂标点的时候匹配不上,就查了⼀下相关资料,原来unicode跟中⽂有关的范围还有好⼏个。
字符范围表
1.标准CJK⽂字
2.全⾓ASCII、全⾓中英⽂标点、半宽⽚假名、半宽平假名、半宽韩⽂字母
3.CJK部⾸补充
4.CJK标点符号
5.CJK笔划
6.康熙部⾸
7.汉字结构描述字符
8.注⾳符号
9.注⾳符号(闽南语、客家语扩展)
10.⽇⽂平假名
11.⽇⽂⽚假名
12.⽇⽂⽚假名拼⾳扩展
13.韩⽂拼⾳
14.韩⽂字母
15.韩⽂兼容字母
16.易经六⼗四卦象
17.彝⽂⾳节
18.彝⽂部⾸
19.盲⽂符号
20.CJK字母及⽉份
21.CJK特殊符号(⽇期合并)
22.装饰符号(⾮CJK专⽤)
23.杂项符号(⾮CJK专⽤)
24.中⽂竖排标点
25.CJK兼容符号(竖排变体、下划线、顿号)
改进后的匹配表达式
1. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-
\u303F\u31C0-\u31EF] (注:这条基本能满⾜要求)
2. [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-unicode系列全部汉字
\u303F\u31C0-\u31EF\u2F00-\u2FDF\u2FF0-\u2FFF\u3100-\u312F\u31A0-\u31BF\u3040-\u309F\u30A0-\u30FF\u31F0-
\u31FF\uAC00-\uD7AF\u1100-\u11FF\u3130-\u318F\u4DC0-\u4DFF\uA000-\uA48F\uA490-\uA4CF\u2800-\u28FF\u3200-
\u32FF\u3300-\u33FF\u2700-\u27BF\u2600-\u26FF\uFE10-\uFE1F\uFE30-\uFE4F] (注:这是完整版本)