python中struct模块之字节型数据的处理⽅法
简介
这个模块处理python中常见类型数据和Python bytes之间转换。这可⽤于处理存储在⽂件或⽹络连接中的bytes数据以及其他来源。在python中没有专门处理字节的数据类型,建⽴字节型数据也⽐较⿇烦,我们知道的bytes()函数也只能对⽆符号整型做处理,并且数据如下(没错,数字为多少就有多少个 00,我们要是⽤这种⽅式来存储⼤量数据,结果可想⽽知):
va = bytes(1) # va: ' 00'
vb = bytes(2) # vb: ' 00 00'
vc = bytes(5) # vc: ' 00 00 00 00 00'
但在python中str类型中既可以⽤字符串表⽰也可以以字节⽅式表⽰,所以你定义⼀个字节型的字符串常量,python是能处理它的:
va = ' 26' # va: '&'
struct处理
字节顺序
⼀个数据有多个字节表⽰的时候,字节的顺序不同也就决定了值,在struct中有以下⼏种字节顺序:
字符字节顺序尺⼨对齐⽅式
@本机本机本机
=本机标准⽆
<⼩端标准⽆
>⼤端标准⽆
!⽹络标准⽆
对于字节顺序,只有⼤端和⼩端两种⽅式,只是⽐如你⽤@和=代表你⽤本机的字节顺序,!代表你使⽤⽹络的字节顺序。你不指定字节顺序则默认的是@。
本地字节顺序是⼤端或⼩端,取决于主机系统。例如,Intel x86和AMD64(x86-64)是⼩端的; 摩托罗拉68000和PowerPC
G5是⼤端; ARM和Intel Itanium具有可切换的字节序(双字节序)。使⽤sys.byteorder来检查你的系统的字节顺序。
数据格式
struct⽀持的打包解包的数据格式如下,我们需要指定格式才能对应处理,其中对应尺⼨已列出(以字节为单位):
字符C类型python类型标准尺⼨
x填充字节没有意义的值
c char长度为1的字节1
b signed char整型1
B unsigned char整型1
_Bool布尔1
h short整型2
H unsigned short整型2
i int整型4
I unsigned int整型4
l long整型4
L unsigned long整型4
q long long整型8
Q unsigned long long整型8
n ssize_t整型
N size_t整型
e浮动2
f float浮动4
d double浮动8
s char[]字节
字符C类型python类型标准尺⼨
p char[]字节
P void *整型
打包
通过struct的pack(fmt, *args)来实现对各种数据的打包(转换为对应字节数据),pack的需要传递的参数fmt就是数据的格式,包括了字节顺序、数据类型;后⾯的*args参数是需要打包的数据。
vaa = struct.pack('>I', 1255) # vaa: ' 00 00 04 e7' 1*4=1个字节 vab = struct.pack('>II', 1255, 23) # vab: ' 00 00 04 e7 00 00 00 17' 2*4=8个字节 vac = struct.pack('>2I?', 1255, 23, True) # vac: ' 00 00 04 e7 00 00 00 17 01' 2*4+1=9个字节
我们看上述三个使⽤例⼦(数据与数据之间没有填充,都是连续的,⽐如对于vac我们不知道它是由两个4字节⽆符号整型和⼀个布尔构成,我们就⽆法取得正确的值),看fmt参数:
‘>I'代表了以⼤端的字节顺序打包⼀个4字节⽆符号整型数据,所以后⾯只跟了⼀个⽆符号整型参数1255;
‘>II'代表了以⼤端的字节顺序打包两个4字节⽆符号整型数据,所以后⾯跟了两个个⽆符号整型参数1255和23;
‘>2I?'代表了以⼤端的字节顺序打包两个4字节⽆符号整型和⼀个布尔型数据,所以后⾯跟了两个个⽆符号整型参数1255、23和⼀个布尔值True。
注意'2I'和'II','4I'和'IIII','2?'和'??'是⼀样的效果。
解包
通过struct的unpack(fmt, string)来实现对字符串的解包,fmt和打包的是完全⼀样的,如下(返回的结果是⼀个元组):
vaa = struct.pack('>I', 1255) # vaa: ' 00 00 04 e7'
vab = struct.pack('>II', 1255, 23) # vab: ' 00 00 04 e7 00 00 00 17'
vaaa = struct.unpack('>I', vaa) # vaaa: <class 'tuple'>: (1255, )
vaba = struct.unpack('>II', vab) # vaba: <class 'tuple'>: (1255, 23)
进阶使⽤
pack_into(fmt, buffer, offset, *args)
fmt参数和pack是⼀样的,buffer参数是可写的缓存区,offset是写⼊位置的偏移量,*args是需要写⼊的数据。这个有什么⽤呢,我们想想这样两个情况,我们有两个类型已经打包好,我们想在这两个已经打包好的数据后⾯再添加⼀个数据打包;或者我们要打包的数据很多,我们不可能在pack中把所有需要打包的数据都通过参数传递给pack,那你的pack函数可能得写成千上完个参数了。这时候我们就可以⽤到这个函数了。
要使⽤它必须要⼀个可以写⼊的缓存区,我们可以导⼊⼀个字符缓存区包,然后创建⼀个固定⼤⼩的缓存区(以字节为单位):
float几个字节多少位import struct
from ctypes import create_string_buffer
# 创建⼀个9字节⼤⼩的缓存区,初始化默认全部为 00
buf = create_string_buffer(9) # buf.raw: ' 00 00 00 00 00 00 00 00 00'
# 冲缓存区buf的第0个字节开始打包两个4字节⽆符号整型数据1和2
struct.pack_into(">II", buf, 0, 1, 2) # buf.raw: ' 00 00 00 01 00 00 00 02 00'
# 然后我们想再打包⼀个布尔型数据到buf中就可以改变以下偏移量
struct.pack_into(">?", buf, 8, True) # buf.raw: ' 00 00 00 01 00 00 00 02 01'
unpack_from(fmt, buffer, offset)和calcsize(fmt)结合解包数据
calcsize⽤于计算格式字符串所对应的结果的长度,如:struct.calcsize(‘II'),返回8。因为两个⽆符号整型所占⽤的长度是8个字节。unpack_from(fmt, buffer, offset)⽤于从buffer缓存区中使⽤fmt格式从offset偏移量处开始解包fmt⾥对应数量的数据。import struct
from ctypes import create_string_buffer
buf = create_string_buffer(9)
struct.pack_into(">II", buf, 0, 1, 2)
struct.pack_into(">?", buf, 8, True)
# 记录位置
pos = 0
# 从buf缓存区中以⼤端⽅式从偏移位置pos处解包两个⽆符号整型数据返回,注意
#返回值如果只写⼀个则返回⼀个元组,否则你解包⼏个数据就要写⼏个返回值。
val = struct.unpack_from('>II', buf, pos) # val: <class 'tuple'>: (1, 2)
val_a, val_b = struct.unpack_from('>II', buf, pos) # val_a: 1 val_b: 2
# 重置解包位置
pos += struct.calcsize('>II') # pos: 8
val_c, = struct.unpack_from('>?', buf, pos) # val_c: True
⽰例
这个⽰例是基于mnist⼿写数字识别的,我们刚开始有60000张⼿写数字的图⽚(.bmp格式的),我们通过下述代码将60000张图⽚转换成字节型数据,bytes.py代码如下:
import struct
import os
import numpy as np
from ctypes import create_string_buffer
import cv2
# 创建⼀个60000 * 784 * 1 + 3 * 4字节⼤⼩的缓存区,初始化默认全部为 00
buffer = create_string_buffer(60000 * 784 * 1 + 3 * 4)
def writeBytesData():
index = 0
BMP_NUM = 0
BMP_WIDTH = 28
BMP_HEIGHT = 28
# 先保留三个⽆符号整型的缓存区
index += struct.calcsize('>III')
path = 'data/bmp'
if not ists(path):
print('No this dir!')
return
list = os.listdir(path)
for line_bmp in list:
bmp_path = os.path.join(path, line_bmp)
if os.path.isdir(bmp_path):
print('This is not a .bmp')
else:
BMP_NUM += 1
print(BMP_NUM)
buf = cv2.imread(bmp_path, cv2.IMREAD_GRAYSCALE)
buf = np.reshape(buf, [784])
for pos in range(buf.__len__()):
struct.pack_into('>B', buffer, index, buf[pos])
index += struct.calcsize('>B')
# 将保留缓存区的内容填上
struct.pack_into('>III', buffer, 0, BMP_NUM, BMP_WIDTH, BMP_HEIGHT)
with open('data/bytes/bytes.bytes', 'wb') as fp:
fp.write(buffer)
def readFromBytes():
index = 0
images = []
with open('data/bytes/bytes.bytes', 'rb') as fp:
buffer = fp.read()
# 解包前三个⽆符号整型
bmp_num, bmp_width, bmp_height = struct.unpack_from('>III', buffer, index)
# 重定位偏移量
index += struct.calcsize('>III')
for pos in range(bmp_num):
img = struct.unpack_from('>784B', buffer, index)
index += struct.calcsize('>784B')
# 修改为原来的图⽚形状
img = np.array(img, dtype=np.uint8)
img = np.reshape(img, [bmp_height, bmp_width])
# 显⽰图⽚
cv2.imshow('bmp', img)
# 按任意键继续
cv2.waitKey(0)
images.append(img)
return images
writeBytesData()
readFromBytes()
在写⼊bytes⽂件的时候有点慢,由于有60000张图⽚每张要写28 * 28个字节,其中⽬录结构如下,需要图⽚的可以去我的下载区下载mnist图⽚数据集:
bytes.py
data
bmp
1.bmp
2.bmp
...
60000.bmp
bytes
以上这篇python中struct模块之字节型数据的处理⽅法就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多多⽀持。