Python正则表达式完美匹配中文与中文标点符号--688IT编程网

Python正则表达式完美匹配中⽂与中⽂标点符号

匹配中⽂标点符号： [\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]

匹配中⽂字符的正则表达式： [\u4e00-\u9fa5]

import re

s = "\n\r\t@#$%^&*这样⼀本书⼤卖，有点意外，据说已经印了四五⼗万，排⾏榜仅次于《希拉⾥⾃传》。⼤概是⼤众抛弃了⼀位表演过⽕的“⽂化⼤师”后，需要再⼀位有格调的“⽂化饰品”来装点吧？书的装帧果然有品格，书⽪是淡棕⾊的皱纹纸，t= re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]',s)

print(''.join(t))

匹配中⽂字符的正则表达式： [/u4e00-/u9fa5]

评注：匹配中⽂还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^/x00-/xff]

js中文正则表达式

评注：可以⽤来计算字符串的长度（⼀个双字节字符长度计2，ASCII字符计1）

匹配空⽩⾏的正则表达式：/n/s*/r

评注：可以⽤来删除空⽩⾏

匹配HTML标记的正则表达式：<(/S*?)[^>]*>.*?<//1>|<.*? />

评注：⽹上流传的版本太糟糕，上⾯这个也仅仅能匹配部分，对于复杂的嵌套标记依旧⽆能为⼒

匹配⾸尾空⽩字符的正则表达式：^/s*|/s*$

评注：可以⽤来删除⾏⾸⾏尾的空⽩字符(包括空格、制表符、换页符等等)，⾮常有⽤的表达式

匹配Email地址的正则表达式：/w+([-+.]/w+)*@/w+([-.]/w+)*/./w+([-.]/w+)*

评注：表单验证时很实⽤

匹配⽹址URL的正则表达式：[a-zA-z]+://[^/s]*

评注：⽹上流传的版本功能很有限，上⾯这个基本可以满⾜需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注：表单验证时很实⽤

匹配国内电话号码：/d{3}-/d{8}|/d{4}-/d{7}

评注：匹配形式如 0511-******* 或 021-********

匹配腾讯QQ号：[1-9][0-9]{4,}

评注：腾讯QQ号从10000开始

匹配中国：[1-9]/d{5}(?!/d)

评注：中国为6位数字

匹配⾝份证：/d{15}|/d{18}

评注：中国的⾝份证为15位或18位

匹配ip地址：/d+/./d+/./d+/./d+

评注：提取ip地址时有⽤

匹配特定数字：

^[1-9]/d*$ //匹配正整数

^-[1-9]/d*$ //匹配负整数

^-?[1-9]/d*$ //匹配整数

^[1-9]/d*|0$ //匹配⾮负整数（正整数 + 0）

^-[1-9]/d*|0$ //匹配⾮正整数（负整数 + 0）

^[1-9]/d*/./d*|0/./d*[1-9]/d*$ //匹配正浮点数

^-([1-9]/d*/./d*|0/./d*[1-9]/d*)$ //匹配负浮点数

^-?([1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0)$ //匹配浮点数

^[1-9]/d*/./d*|0/./d*[1-9]/d*|0?/.0+|0$ //匹配⾮负浮点数（正浮点数 + 0）

^(-([1-9]/d*/./d*|0/./d*[1-9]/d*))|0?/.0+|0$ //匹配⾮正浮点数（负浮点数 + 0）

评注：处理⼤量数据时有⽤，具体应⽤时注意修正

匹配特定字符串：

^[A-Za-z]+$ //匹配由26个英⽂字母组成的字符串

^[A-Z]+$ //匹配由26个英⽂字母的⼤写组成的字符串

^[a-z]+$ //匹配由26个英⽂字母的⼩写组成的字符串

^[A-Za-z0-9]+$ //匹配由数字和26个英⽂字母组成的字符串

^/w+$ //匹配由数字、26个英⽂字母或者下划线组成的字符串

评注：最基本也是最常⽤的⼀些表达式

在Perl:

从ISO 8859-1到UTF-8: s/([/x80-/xFF])/chr(0xC0|ord($1)>>6).chr(0x80|ord($1)&0x3F)/eg;

从UTF-8到ISO 8859-1: s/([/xC2/xC3])([/x80-/xBF])/chr(ord($1)<<6&0xC0|ord($2)&0x3F)/eg;

688IT编程网

Python正则表达式完美匹配中文与中文标点符号

发表评论

推荐文章

高中英语2024届高考读后续写一句多译汇总(共40句)

综合教程3Unit1-Unit8英译汉以及汉译英

八年级英语下册关于做家务的作文

关于环保英语演讲稿

knock out考研英语

热门文章

短语out with用中文怎么翻译

Sold Out歌词完整版下载,Sold Out原唱歌词中文翻译Hawk Nelson_百度文...

left out中文翻译

call out中文翻译

draw out中文翻译

英语任务型读写常用的概括性词汇及经典取代

上海市南模中学2022-2023学年高三上学期开学考英语试题(含答案)

高考英语冲刺单项选择能力提升试题

Virginia Woolf A room of one's own

计算机的专业英语选择

Book 3 unit 3 Reading

广西南宁市东盟中学2023-2024学年高二上学期开学考试英语试题(含答案...

重庆市渝高中学2022-2023学年高一下学期第二次测试英语试题

2022年湖北恩施学院专升本考试英语真题

The Blind Side

教学方案1+习题系列1英语Unit 4 Making the news:必修5人教版同步练 ...

成人函授英语1试题2

初中英语中考阅读理解课件

雅思口语话题范文(精选十五篇)

历年高考英语易错题汇编及详细答案解释

最新文章

高中英语2024届高考读后续写一句多译汇总(共40句)

综合教程3Unit1-Unit8英译汉以及汉译英

关于环保英语演讲稿

knock out考研英语

一篇关于垃圾分类宣传活动的报道英语小作文

英语演讲稿3分钟带翻译4篇

标签列表

688IT编程网

Python正则表达式完美匹配中文与中文标点符号

发表评论

推荐文章

高中英语2024届高考读后续写一句多译汇总(共40句)

综合教程3Unit1-Unit8英译汉以及汉译英

八年级英语下册关于做家务的作文

关于环保英语演讲稿

knock out考研英语

热门文章

短语out with用中文怎么翻译

Sold Out歌词完整版下载,Sold Out原唱歌词中文翻译Hawk Nelson_百度文...

left out中文翻译

call out中文翻译

draw out中文翻译

英语任务型读写常用的概括性词汇及经典取代

上海市南模中学2022-2023学年高三上学期开学考英语试题(含答案)

高考英语 冲刺单项选择能力提升试题

Virginia Woolf A room of one's own

计算机的专业英语选择

Book 3 unit 3 Reading

广西南宁市东盟中学2023-2024学年高二上学期开学考试英语试题(含答案...

重庆市渝高中学2022-2023学年高一下学期第二次测试英语试题

2022年湖北恩施学院专升本考试英语真题

The Blind Side

教学方案1+习题系列1英语Unit 4 Making the news:必修5人教版同步练 ...

成人函授英语1试题2

初中英语中考阅读理解课件

雅思口语话题范文(精选十五篇)

历年高考英语易错题汇编及详细答案解释

最新文章

高中英语2024届高考读后续写一句多译汇总(共40句)

综合教程3Unit1-Unit8英译汉以及汉译英

关于环保英语演讲稿

knock out考研英语

一篇关于垃圾分类宣传活动的报道英语小作文

英语演讲稿3分钟带翻译4篇

标签列表

高考英语冲刺单项选择能力提升试题