python(48):re.split多分隔符
问题描述:
使⽤多个界定符分割字符串
问题
你需要将⼀个字符串分割为多个字段,但是分隔符(还有周围的空格)并不是固定的。
解决⽅案
string对象的split()⽅法只适应于⾮常简单的字符串分割情形,它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候,最好使⽤re.split()⽅法:
>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
函数re.split()是⾮常实⽤的,因为它允许你为分隔符指定多个正则模式。⽐如,在上⾯的例⼦中,分隔符可以是逗号,分号或者是空格,并且后⾯紧跟着任意个的空格。只要这个模式被到,那么匹配的分隔符两边的实体都会被当成是结果中的元素返回。返回结果为⼀个字段列表,这个跟str.split()返回值类型是⼀样的。
当你使⽤re.split()函数时候,需要特别注意的是正则表达式中是否包含⼀个括号捕获分组。如果使⽤了捕获分组,那么被匹配的⽂本也将出现在结果列表中。⽐如,观察⼀下这段代码运⾏后的结果:
>>> fields = re.split(r'(;|,|\s)\s*', line)
>>> fields
['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']
获取分割字符在某些情况下也是有⽤的。⽐如,你可能想保留分割字符串,⽤来在后⾯重新构造⼀个新的输出字符串:
>>> values = fields[::2]
>>> delimiters = fields[1::2] + ['']
>>> values
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
>>> delimiters
[' ', ';', ',', ',', ',', '']
>>> # Reform the line using the same delimiters
>>> ''.join(v+d for v,d in zip(values, delimiters))
'asdf fjdk;afed,fjek,asdf,foo'
如果你不想保留分割字符串到结果列表中去,但仍然需要使⽤到括号来分组正则表达式的话,确保你的分组是⾮捕获分组,形如(?:...)。⽐如:
>>> re.split(r'(?:,|;|\s)\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']python 正则表达式 空格