⼏种常见编码⽅式
在学习Python过程中接触到字符串类型str和bytes在bytes类型。计算机所有程序的计算都是⽤的str类型⽽在存储磁盘和⽹络传输中⽤的是bytes类型。
>>> de("gbk")
>>> type(s)
<class 'bytes'>
unicode所有字符电脑⾳痴的我百度了⼀下。
encode ⽤于编码,decode ⽤于解码。
原来"gbk"是⼀种编码形式。好吧。继续百度。有了初步的认识。
ASCII码:⽤来表⽰英⽂,它使⽤⼀个字节表⽰具体字符,其中第⼀位规定为0,其他7位存储数据,(2^7)⼀共可以表⽰128个字符。
扩展的ASCII码:由于欧洲国家的语⾔会有拼⾳存在所以⽤7位已经不能满⾜了所以⼀些欧洲国家决定利⽤
闲置的最⾼位来表达更多的字符(2^8)所以有256个字符。
不过即使编码相同但是表⽰的字符也不同。
Unicode:简单来说是⼀个字符集。包含世界上所有字符。得益于互联⽹的发展。
GBK和GB2312,GB18030:GBK和GB2312都是简体中⽂编码。GB2312⽀持6千多汉字编码,GBK⽀持1万多汉字编码。GB18030是繁体中⽂编码。
UTF-8:UF-8是Unicode的实现⽅式之⼀,是互联⽹使⽤最为⼴泛的编码。⽤1-4个字节表⽰符号。根据不同字节长度变化不同符号。
继续...
ASCIIS码: 1个英⽂字母(不分⼤⼩写)= 1个字节的空间    1个中⽂汉字 = 2个字节的空间    1个ASCII码 = ⼀个字节
Unicode编码:1个英⽂字符 = 2个字节英⽂标点 = 2个字节    1个中⽂(含繁体) = 2个字节中⽂标点 = 2个字节
UTF-8编码:1个英⽂字符 = 1个字节英⽂标点 = 1个字节    1个中⽂(含繁体) = 3个字节中⽂标点 = 3个字节
继续补充中...