Python计算字符宽度的方法--688IT编程网

Python计算字符宽度的⽅法

本⽂实例讲述了Python计算字符宽度的⽅法。分享给⼤家供⼤家参考，具体如下：

最近在⽤python写⼀个CLI⼩程序，其中涉及到计算字符宽度，⽬标是以友好的⽅式将⼀个长字符串截取为等宽的⽚段。

对于unicode字符，python的len函数可以准确的计算其中所包含的字符个数，但是个数并不代表宽度，如：

>>>len(u'你好a')

因此⽆法简单的使⽤这种⽅式来计算宽度。

GBK decode

⾸先我想到GBK编码，00–7F范围内的字符是⼀字节编码，其余是双字节编码，正好与字符的宽度⼤体⼀致，于是有了这样的投机取巧的办法（假设取8个宽度）：

>>> a = u'hello你好'

>>> de('gbk')

>>> try:

... print b[:8].decode('gbk')

... except:

... print b[:7].decode('gbk')

...

hello你

如代码所⽰，⾸先将unicode的字符串进⾏GBK编码，然后截取8个字节的宽度后尝试⽤GBK解码，若解码失败，则少截取⼀个宽度，截取7个字节后使⽤GBK解码。

虽然初步解决了问题，但是这样做的硬伤很明显。⾸先代码不优雅，以试错的⽅式运⾏；其次GBK所能表⽰的字符有限，对于⼤量GBK编码以外的字符⽆法⽀持。

East_Asian_Width

徘徊很久之后，偶然发现标准中有East_Asian_Width 属性，并有以下可能值：

# East_Asian_Width (ea)

ea ; A ; Ambiguous 不确定

ea ; F ; Fullwidth 全宽

ea ; H ; Halfwidth 半宽

ea ; N ; Neutral 中性

ea ; Na ; Narrow 窄

ea ; W ; Wide 宽

其中除A不确定外，F/H/N/Na/W都能很明确的知道宽度，如果保守起见，将A视为宽度为2的话，则很容易给出单个字符的宽度：

>>> import unicodedata

>>> def chr_width(c):

... if (unicodedata.east_asian_width(c) in ('F','W','A')):

... return 2

... else:

... return 1

>>> chr_width(u'你')

>>> chr_width(u'a')

到现在似乎已经可以满⾜要求了，但是实际使⽤中发现属性为A的字符真不少见，最典型的就是中⽂的双引号：

>>> chr_width(u'”')

在⼤多数等宽字体中，中⽂双引号都是只占⼀位宽的，如果⼀⾏⾥有多个中⽂双引号，则累加的误判宽度将会使截取效果⼤打折扣，⽆疑这也不是最好的办法。

urwid的解决⽅案

是⼀个成熟的python终端UI库，它在curses的基础之上包装了类似HTML的控件⽤以显⽰⽂本内容，如果有这⽅⾯的开发需求，⾮常推荐此库，⽐直接使⽤curses库⽅便很多，⾮常棒的是它对unicode的⽂本宽度截取⾮常准确，让我⼤为惊讶，于是翻开它的源码⼀探究竟，⽂本宽度计算⽅⾯其核⼼代码如下：

widths = [

(126, 1), (159, 0), (687, 1), (710, 0), (711, 1),

(727, 0), (733, 1), (879, 0), (1154, 1), (1161, 0),

(4347, 1), (4447, 2), (7467, 1), (7521, 0), (8369, 1),

(8426, 0), (9000, 1), (9002, 2), (11021, 1), (12350, 2),

(12351, 1), (12438, 2), (12442, 0), (19893, 2), (19967, 1),

(55203, 2), (63743, 1), (64106, 2), (65039, 1), (65059, 0),

(65131, 2), (65279, 1), (65376, 2), (65500, 1), (65510, 2),

(120831, 1), (262141, 2), (1114109, 1),

]

def get_width( o ):

"""Return the screen column width for unicode ordinal o."""

global widths

if o == 0xe or o == 0xf:

return 0

for num, wid in widths:

if o <= num:

return wid

return 1

unicode所有字符如代码所⽰，⾸先根据⽂档整理出字符宽度的范围表，然后使⽤unicode代码查表。使⽤之前的例⼦测试：

>>> get_width(ord(u'a'))

>>> get_width(ord(u'你'))

>>> get_width(ord(u'”'))

完全准确，⽽且在实际应⽤中的表现也⽐较好，是⼀个理想的解决⽅案，更多技巧请查阅源码。

更多关于Python相关内容感兴趣的读者可查看本站专题：《》、《》、《》、《》、《》、《》及《》

希望本⽂所述对⼤家Python程序设计有所帮助。

688IT编程网

Python计算字符宽度的方法

发表评论

推荐文章

谈论天气和正在干什么的英语对话作文

英语作文失分写反思

我对打包旅行的看法英语作文100字

英语作文倡议书分三段写

家务劳动英语计划表

热门文章

searchsourcebuilder用法

deepsort参数

用REG过程进行回归分析

小升初英语真题汇编- 英语六年级下册沪教牛津版(深圳用)

使用sequelize进行列表排序

promql 区间向量排序用法

Bibexcel软件使用说明

人教版高中英语必修二各单元短语及句型整合

大学生英语竞赛(NECCS)A类研究生英语-16

java es的order by field方法

c++ sort 写法

c#如何使用IComparer子类的Sort排序方法

武汉理工大学算法分析实验报告

referenceanswerstoexercisesinstudenthandoutlesson1

低碳环保生活英语作文60词

视听说四级答案(超完整版)

关注语篇结构,生成教学目标

java中List对象排序通用方法

2018最全amazon仓库地址大全列表

java实现6种字符串数组的排序(Stringarraysort)

最新文章

谈论天气和正在干什么的英语对话作文

英语作文失分写反思

我对打包旅行的看法英语作文100字

家务劳动英语计划表

家庭纠纷的英语作文好词好句

新教材高中英语UNIT1Laughoutloud!Part3Developingideas

标签列表

688IT编程网

Python计算字符宽度的方法

发表评论

推荐文章

谈论天气和正在干什么的英语对话作文

英语作文失分写反思

我对打包旅行的看法英语作文100字

英语作文倡议书分三段写

家务劳动英语计划表

热门文章

searchsourcebuilder用法

deepsort参数

用REG过程进行回归分析

小升初英语真题汇编- 英语六年级下册 沪教牛津版(深圳用)

使用sequelize进行列表排序

promql 区间向量排序 用法

Bibexcel软件使用说明

人教版高中英语必修二各单元短语及句型整合

大学生英语竞赛(NECCS)A类研究生英语-16

java es的order by field方法

c++ sort 写法

c#如何使用IComparer子类的Sort排序方法

武汉理工大学算法分析实验报告

referenceanswerstoexercisesinstudenthandoutlesson1

低碳环保生活英语作文60词

视听说四级答案(超完整版)

关注语篇结构,生成教学目标

java中List对象排序通用方法

2018最全amazon仓库地址大全列表

java实现6种字符串数组的排序(Stringarraysort)

最新文章

谈论天气和正在干什么的英语对话作文

英语作文失分写反思

我对打包旅行的看法英语作文100字

家务劳动英语计划表

家庭纠纷的英语作文好词好句

新教材高中英语UNIT1Laughoutloud!Part3Developingideas

标签列表

小升初英语真题汇编- 英语六年级下册沪教牛津版(深圳用)

promql 区间向量排序用法