[转]强⼤的python字符串解析
1.python字符串通常有单引号('...')、双引号("...")、三引号("""...""")或('''...''')包围,三引号包含的字符串可由多⾏组成,⼀般可表⽰⼤段的叙述性字符串。在使⽤时基本没有差别,但双引号和三引号("""...""")中可以包含单引号,三引号 ('''...''')可以包含双引号,⽽不需要转义。
2.⽤(\)对特殊字符转义,如(\)、(')、(")。
3.常⽤字符串内置函数
unt()  //返回该字符串中某个⼦串出现的次数
2)str.find()  //返回某个⼦串出现在该字符串的起始位置
3)str.lower()  //将该字符串全部转化为⼩写
4)str.upper()  //转为⼤写
5)str.split()  //分割字符串,返回字串串列表,默认以空格分割
6)len(str)    //返回字符串长度
7)int(str)    //转成整型
8)float(str)    //转成浮点型
例如:
>>> str = 'Hello, world'
>>> unt('o')
>>> 2
>>> str.find('lo')
>>> 3
>>> str.lower()
>>> 'hello, world'
>>> str.upper()
>>> 'HELLO, WORLD'
>>> str.split()
>>> ['Hello,', 'world']
>>> str.split(',')
>>> ['Hello', ' world']
>>> len(str)
>>> 13
>>> str
>>> 'Hello, world'
>>> a = "545.2222"
>>> float(a)
545.22220000000004
>>> int(float(a))
545
以上所有操作都不会改变字符串本⾝!
4.正则表达式,re模块
import re
常⽤函数:
1)compile():  //将正则表达式字符串编译成正则re对象
2)search()    //在⽬标字符串中匹配正则表达式
3)match()      //从⽬标字符串第⼀个字符开始匹配正则表达
search和match匹配成功返回MatchObject对象,失败返回None
>>> p = repile('abc')
>>> p.search('zabcy')
<_sre.SRE_Match object at 0x2a95659030>
不先编译成正则re对象也是可以的,上例也可以为:
>>> re.search('abc','xabcy')
<_sre.SRE_Match object at 0x2a95659098>
compile还可加些标志位,例如:re.I(re.IGNORECASE)忽略⼤⼩写
>>> p = repile('abc')
>>> print p.search('xAbCy')
None
>>> p = repile('abc',re.I)
>>> print p.search('xAbCy')
<_sre.SRE_Match object at 0x2a9565a098>
search和match区别见下例:
>>> p = repile('abc')
>>> print p.search('xxxabcyyy')
<_sre.SRE_Match object at 0x2a95659030>
>>> print p.match('xxxabcyyy')
None
>>> print p.match('abcyyy')
>>> print p.match('abcyyy')
<_sre.SRE_Match object at 0x2a95659098>
4)split()      //类似字符串内置函数split()
区别在于:内置split()以确定字符串分割,⽽正则split函数以正则表达式分割字
例如:以空格(1个或者多个空格)分割:
>>> p.split('a b  c  d')
['a', 'b', 'c', 'd']
⽽内置split分割的结果为:
>>> 'a b  c  d'.split(' ')
['a', 'b', '', '', 'c', '', 'd']python正则表达式匹配小数
5)findall()    //返回⽬标字符串中匹配正则表达式中所有⼦串列表
>>> p = repile('^([a-z]{2}):([1-9]{3}):(.+)$')
>>> p.findall('as:123:a12')
[('as', '123', 'a12')]
上例中正则表达式的⼦串为3个⽤括弧括起的,分别为:'[a-z]{2}'、'[1-9]{3}'、'.+', 分别被as、123、a12匹配,注意此返回的是匹配字符串元组的⼀维列表。
以上⽐较常⽤的正则函数,更多⽤法请参照python⼿册。
5.字符串与数字相互转换,string模块
import string
string.atoi(str[,base])  //base为可选参数,表⽰将字符转换成的进制类型
数字转换成字符串可简单了,直接⽤str()
6.字符与ASCII转换
char->ascii  ord()  ascii->char  chr()
在许多编程语⾔中都包含有格式化字符串的功能,⽐如C和Fortran语⾔中的格式化输⼊输出。Python中内置有对字符串进⾏格式化的操作%。
模板
格式化字符串时,Python使⽤⼀个字符串作为模板。模板中有格式符,这些格式符为真实值预留位置,并说明真实数值应该呈现的格式。Python⽤⼀个tuple将多个值传递给模板,每个值对应⼀个格式符。
⽐如下⾯的例⼦:
print("I'm %s. I'm %d year old" % ('Vamei', 99))
上⾯的例⼦中,
"I'm %s. I'm %d year old" 为我们的模板。%s为第⼀个格式符,表⽰⼀个字符串。%d为第⼆个格式符,表⽰⼀个整数。('Vamei', 99)的两个元素'Vamei'和99为替换%s和%d的真实值。
在模板和tuple之间,有⼀个%号分隔,它代表了格式化操作。
整个"I'm %s. I'm %d year old" % ('Vamei', 99) 实际上构成⼀个字符串表达式。我们可以像⼀个正常的字符串那样,将它赋值给某个变量。⽐如:
a = "I'm %s. I'm %d year old" % ('Vamei', 99)
print(a)
我们还可以⽤词典来传递真实值。如下:
print("I'm %(name)s. I'm %(age)d year old" % {'name':'Vamei', 'age':99})
可以看到,我们对两个格式符进⾏了命名。命名使⽤()括起来。每个命名对应词典的⼀个key。
格式符
格式符为真实值预留位置,并控制显⽰的格式。格式符可以包含有⼀个类型码,⽤以控制显⽰的类型,如下:
%s    字符串 (采⽤str()的显⽰)
%r    字符串 (采⽤repr()的显⽰)
%c    单个字符
%b    ⼆进制整数
%d    ⼗进制整数
%i    ⼗进制整数
%o    ⼋进制整数
%x    ⼗六进制整数
%e    指数 (基底写为e)
%E    指数 (基底写为E)
%f    浮点数
%F    浮点数,与上相同
%g    指数(e)或浮点数 (根据显⽰长度)
%G    指数(E)或浮点数 (根据显⽰长度)
%%    字符"%"
可以⽤如下的⽅式,对格式进⾏进⼀步的控制:
%[(name)][flags][width].[precision]typecode
(name)为命名
flags可以有+,-,' '或0。+表⽰右对齐。-表⽰左对齐。' '为⼀个空格,表⽰在正数的左侧填充⼀个空格,从⽽与负数对齐。0表⽰使⽤0填充。width表⽰显⽰宽度
precision表⽰⼩数点后精度
⽐如:
print("%+10x" % 10)
print("%04d" % 5)
print("%6.3f" % 2.3)
上⾯的width, precision为两个整数。我们可以利⽤*,来动态代⼊这两个量。⽐如:
print("%.*f" % (4, 1.2))
Python实际上⽤4来替换*。所以实际的模板为"%.4f"。
总结
Python中内置的%操作符可⽤于格式化字符串操作,控制字符串的呈现格式。Python中还有其他的格式化字符串的⽅式,但%操作符的使⽤是最⽅便的。