python粘包分析与解决

python

TCP与UDP协议

  1. TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务。收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。这样,接收端,就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
  2. UDP(user datagram protocol,用户数据报协议)是无连接的,面向消息的,提供高效率服务。不会使用块的合并优化算法,, 由于UDP支持的是一对多的模式,所以接收端的skbuff(套接字缓冲区)采用了链式结构来记录每一个到达的UDP包,在每个UDP包中就有了消息头(消息来源地址,端口等信息),这样,对于接收端来说,就容易进行区分处理了。 即面向消息的通信是有消息保护边界的。
  3. tcp是基于数据流的,于是收发的消息不能为空,这就需要在客户端和服务端都添加空消息的处理机制,防止程序卡住,而udp是基于数据报的,即便是你输入的是空内容(直接回车),那也不是空消息,udp协议会帮你封装上消息头,实验略

粘包现象

socket收发消息的原理

应用程序所看到的数据是一个整体,或说是一个流(stream),一条消息有多少字节对应用程序是不可见的,因此TCP协议是面向流的协议,这也是容易出现粘包问题的原因。

而UDP是面向消息的协议,每个UDP段都是一条消息,应用程序必须以消息为单位提取数据,不能一次提取任意字节的数据,这一点和TCP是很不同的。怎样定义消息呢?

可以认为对方一次性write/send的数据为一个消息,需要明白的是当对方send一条信息的时候,无论底层怎样分段分片,TCP协议层会把构成整条消息的数据段排序完成后才呈现在内核缓冲区。

python;gutter:true;">#1:不管是recv还是send都不是直接接收对方的数据,而是操作自己的操作系统内存--->不是一个send对应一个recv

#2:recv:

wait data 耗时非常长

copy data

send:

copy data

例如基于tcp的套接字客户端往服务端上传文件,发送时文件内容是按照一段一段的字节流发送的,在接收方看了,根本不知道该文件的字节流从何处开始,在何处结束

所谓粘包问题主要还是因为接收方不知道消息之间的界限,不知道一次性提取多少字节的数据所造成的。

只有TCP有粘包现象,UDP永远不会粘包

粘包不一定会发生:

如果发生了:1.可能是在客户端已经粘了

      2.客户端没有粘,可能是在服务端粘了

 客户端粘包:

发送端需要等缓冲区满才发送出去,造成粘包(发送数据时间间隔很短,数据量很小,TCP优化算法会当做一个包发出去,产生粘包)

client端:

import socket

import time

client=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

client.connect(('127.0.0.1',9904))

client.send('hello'.encode('utf-8'))

client.send('world'.encode('utf-8'))

server端:

import socket

import time

server=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

server.bind(('127.0.0.1',9904)) #0-65535:0-1024给操作系统使用

server.listen(5)

conn, addr=server.accept()

print('connect by ',addr)

res1 = conn.recv(100)

print('第一次',res1)

res2=conn.recv(10)

print('第二次', res2)

 服务端输出结果

connect by  ('127.0.0.1', 9787)

第一次 b'helloworld'

第二次 b''

 

服务端粘包

接收方不及时接收缓冲区的包,造成多个包接收(客户端发送了一段数据,服务端只收了一小部分,服务端下次再收的时候还是从缓冲区拿上次遗留的数据,产生粘包) 

server端:

import socket

import time

server=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

server.bind(('127.0.0.1',9904)) #0-65535:0-1024给操作系统使用

server.listen(5)

conn, addr=server.accept()

print('connect by ',addr)

res1 = conn.recv(2)#第一没有接收完整

print('第一次',res1)

time.sleep(6)

res2=conn.recv(10)# 第二次会接收旧数据,再收取新的

print('第二次', res2)

client端

import socket

import time

client=socket.socket(socket.AF_INET,socket.SOCK_STREAM)

client.connect(('127.0.0.1',9904))

client.send('hello'.encode('utf-8'))

time.sleep(5)

client.send('world'.encode('utf-8'))

 服务端输出

connect by  ('127.0.0.1', 10184)

第一次 b'he'

第二次 b'lloworld'

解决粘包问题  

问题的根源在于,接收端不知道发送端将要传送的字节流的长度,所以解决粘包的方法就是发送端在发送数据前,发一个头文件包,告诉发送的字节流总大小,然后接收端来一个死循环接收完所有数据

使用struct模块可以用于将Python的值根据格式符,转换为字符串(byte类型)

struct模块中最重要的三个函数是pack(), unpack(), calcsize()

pack(fmt, v1, v2, ...)     按照给定的格式(fmt),把数据封装成字符串(实际上是类似于c结构体的字节流)

unpack(fmt, string)       按照给定的格式(fmt)解析字节流string,返回解析出来的tuple

calcsize(fmt)                 计算给定的格式(fmt)占用多少字节的内存

struct中支持的格式如下表:

FormatC TypePython字节数
xpad byteno value1
ccharstring of length 11
bsigned charinteger1
Bunsigned charinteger1
?_Boolbool1
hshortinteger2
Hunsigned shortinteger2
iintinteger4
Iunsigned intinteger or long4
llonginteger4
Lunsigned longlong4
qlong longlong8
Qunsigned long longlong8
ffloatfloat4
ddoublefloat8
schar[]string1

 使用案例

import struct

res = struct.pack('i',123)

print(res,type(res), len(res)) # b'{\x00\x00\x00' <class 'bytes'> 4 封装一个4个字节的包

res1=struct.pack('q',11122232323)

print(res1,type(res1), len(res1)) # b'\x03\xcc\xef\x96\x02\x00\x00\x00' <class 'bytes'> 8 封装一个8个字节的包

print(struct.unpack('i',res)[0]) # 拆包

print(struct.unpack('q',res1)[0]) #

#输出

# b'{\x00\x00\x00' <class 'bytes'> 4

# b'\x03\xcc\xef\x96\x02\x00\x00\x00' <class 'bytes'> 8

# (123,)

# (11122232323,)

 

解决粘包问题简单版(适用于传输字节较小)

server

import socket

import subprocess

import struct

def cmd_exec(cmd):

"""

执行shell命令

:param cmd:

:return:

"""

p = subprocess.Popen(cmd, shell=True,

stdin=subprocess.PIPE,stdout=subprocess.PIPE,stderr=subprocess.PIPE)

stdout, stderr = p.communicate()

if p.returncode != 0:

return stderr

return stdout

sock_server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

sock_server.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) # 重用地址端口

sock_server.bind(('127.0.0.1', 8088))

sock_server.listen(1) # 开始监听,1代表在允许有一个连接排队,更多的新连接连进来时就会被拒绝

print('starting...')

while True:

conn, client_addr = sock_server.accept() # 阻塞直到有连接为止,有了一个新连接进来后,就会为这个请求生成一个连接对象

print(client_addr)

while True:

try:

data = conn.recv(1024) # 接收1024个字节

if not data: break # 适用于linux操作系统,防止客户端断开连接后死循环

print('客户端的命令', data.decode('gbk'))

res = cmd_exec(data.decode('gbk')) # 执行cmd命令

# 第一步:制作固定长度的报头4bytes

total_size = len(res)

header = struct.pack('i',total_size)

# 第二步:把报头发送给客户端

conn.send(header)

# 第三步:再发送真实的数据

conn.sendall(res)

except ConnectionResetError: # 适用于windows操作系统,防止客户端断开连接后死循环

break

conn.close()

server.close()

client

import socket

import struct

client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

print(client)

client.connect(('127.0.0.1', 8088))

while True:

data = input('input >>>')

if not data: # 如果数据为空,继续输入

continue

client.send(data.encode('GBK')) # 发送数据

# 第一步:先收报头

header = client.recv(4)

# 第二步:从报头中解析出对真实数据的描述信息(数据的长度)

total_size = struct.unpack('i',header)[0]

print('收到数据长度=',total_size)

# 第三步:接收真实的数据

recv_size = 0

recv_data = b''

while recv_size < total_size:

data = client.recv(1024) # 接收数据

recv_data += data

recv_size += len(data) # 不能加1024,如果加进度条,会计算有误

print('接收数据 =', recv_data.decode('gbk', 'ignore')) # 如果设置为ignore,则会忽略非法字符;

client.close() # 关闭

输出结果:

server端

starting...

('127.0.0.1', 13338)

客户端的命令 dir

客户端的命令 ipconfig/all

client端:

"C:\Program Files\Python36\python.exe" "路飞/第三模块/第二章网络编程/01 简单的套接字通信/客户端.py"

<socket.socket fd=216, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=0>

input >>>dir

收到数据长度= 477

接收数据 = 驱动器 C 中的卷是 BOOTCAMP

卷的序列号是 D471-4F4D

C:路飞\第三模块\第二章网络编程\01 简单的套接字通信 的目录

2018/07/07 14:02 <DIR> .

2018/07/07 14:02 <DIR> ..

2018/07/05 22:43 594 cmd_util.py

2018/07/07 14:02 971 客户端.py

2018/07/07 14:01 1,673 服务端.py

3 个文件 3,238 字节

2 个目录 28,749,410,304 可用字节

input >>>ipconfig/all

收到数据长度= 7702

接收数据 =

Windows IP 配置

主机名 . . . . . . . . . . . . . : PC

主 DNS 后缀 . . . . . . . . . . . :

节点类型 . . . . . . . . . . . . : 混合

IP 路由已启用 . . . . . . . . . . : 否

WINS 代理已启用 . . . . . . . . . : 否

以太网适配器 本地连接 3:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Bluetooth PAN Network Adapter

物理地址. . . . . . . . . . . . . : 60-F8-1D-zz-89-EF

DHCP 已启用 . . . . . . . . . . . : 是

自动配置已启用. . . . . . . . . . : 是

无线局域网适配器 无线网络连接:

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Broadcom 802.11ac Network Adapter

物理地址. . . . . . . . . . . . . : 60-F8-1D-AD-zz-EE

DHCP 已启用 . . . . . . . . . . . : 是

自动配置已启用. . . . . . . . . . : 是

本地链接 IPv6 地址. . . . . . . . : fe80::55d1:e185:f929:8ce3%13(首选)

IPv4 地址 . . . . . . . . . . . . : 192.168.31.125(首选)

子网掩码 . . . . . . . . . . . . : 255.255.255.0

获得租约的时间 . . . . . . . . . : 2018年7月7日 9:27:54

租约过期的时间 . . . . . . . . . : 2018年7月8日 1:25:52

默认网关. . . . . . . . . . . . . : 192.168.31.1

DHCP 服务器 . . . . . . . . . . . : 192.168.31.1

DHCPv6 IAID . . . . . . . . . . . : 291567645

DHCPv6 客户端 DUID . . . . . . . : 00-01-00-zz-7C-0D-6E-60-F8-1D-AD-89-EE

DNS 服务器 . . . . . . . . . . . : 114.114.114.114

TCPIP 上的 NetBIOS . . . . . . . : 已启用

以太网适配器 VirtualBox Host-Only Network:

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : VirtualBox Host-Only Ethernet Adapter

物理地址. . . . . . . . . . . . . : 0A-00-27-00-zz-13

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

本地链接 IPv6 地址. . . . . . . . : fe80::7d26:2c96:84f1:6c4d%19(首选)

自动配置 IPv4 地址 . . . . . . . : 169.254.108.77(首选)

子网掩码 . . . . . . . . . . . . : 255.255.0.0

默认网关. . . . . . . . . . . . . : 192.168.56.255

DHCPv6 IAID . . . . . . . . . . . : 336199719

DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-21-7C-0zz60-F8-1D-AD-89-EE

DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1

fec0:0:0:ffff::2%1

fec0:0:0:ffff::3%1

TCPIP 上的 NetBIOS . . . . . . . : 已启用

以太网适配器 VirtualBox Host-Only Network #2:

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : VirtualBox Host-Only Ethernet Adapter #2

物理地址. . . . . . . . . . . . . : 0A-00-27-00-00-14

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

本地链接 IPv6 地址. . . . . . . . : fe80::641c:b67e:fa43:a28d%20(首选)

IPv4 地址 . . . . . . . . . . . . : 192.168.96.1(首选)

子网掩码 . . . . . . . . . . . . : 255.255.255.0

默认网关. . . . . . . . . . . . . :

DHCPv6 IAID . . . . . . . . . . . : 537526311

DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-21-7C-0D-6E-60-F8-1D-AD-89-EE

DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1

fec0:0:0:ffff::2%1

fec0:0:0:ffff::3%1

TCPIP 上的 NetBIOS . . . . . . . : 已启用

以太网适配器 VMware Network Adapter VMnet1:

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : VMware Virtual Ethernet Adapter for VMnet1

物理地址. . . . . . . . . . . . . : 00-50-56-C0-00-01

DHCP 已启用 . . . . . . . . . . . : 是

自动配置已启用. . . . . . . . . . : 是

本地链接 IPv6 地址. . . . . . . . : fe80::20c1:b2f0:8bff:626c%25(首选)

IPv4 地址 . . . . . . . . . . . . : 192.168.109.1(首选)

子网掩码 . . . . . . . . . . . . : 255.255.255.0

获得租约的时间 . . . . . . . . . : 2018年7月7日 9:27:50

租约过期的时间 . . . . . . . . . : 2018年7月7日 14:27:49

默认网关. . . . . . . . . . . . . :

DHCP 服务器 . . . . . . . . . . . : 192.168.109.254

DHCPv6 IAID . . . . . . . . . . . : 385896534

DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-21-7C-0D-6E-60-F8-1D-AD-89-EE

DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1

fec0:0:0:ffff::2%1

fec0:0:0:ffff::3%1

TCPIP 上的 NetBIOS . . . . . . . : 已启用

以太网适配器 VMware Network Adapter VMnet8:

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : VMware Virtual Ethernet Adapter for VMnet8

物理地址. . . . . . . . . . . . . : 00-50-56zz-00-08

DHCP 已启用 . . . . . . . . . . . : 是

自动配置已启用. . . . . . . . . . : 是

本地链接 IPv6 地址. . . . . . . . : fe80::61fd:5f66:1f70:cb3d%26(首选)

IPv4 地址 . . . . . . . . . . . . : 192.168.5.1(首选)

子网掩码 . . . . . . . . . . . . : 255.255.255.0

获得租约的时间 . . . . . . . . . : 2018年7月7日 9:27:49

租约过期的时间 . . . . . . . . . : 2018年7月7日 14:27:48

默认网关. . . . . . . . . . . . . :

DHCP 服务器 . . . . . . . . . . . : 192.168.5.254

DHCPv6 IAID . . . . . . . . . . . : 402673750

DHCPv6 客户端 DUID . . . . . . . : 00-01-00-01-21-7C-0D-6E-60-F8-1D-AD-89-EE

DNS 服务器 . . . . . . . . . . . : fec0:0:0:ffff::1%1

fec0:0:0:ffff::2%1

fec0:0:0:ffff::3%1

主 WINS 服务器 . . . . . . . . . : 192.168.5.2

TCPIP 上的 NetBIOS . . . . . . . : 已启用

隧道适配器 本地连接* 14:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Microsoft ISATAP Adapter #2

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

隧道适配器 Teredo Tunneling Pseudo-Interface:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Teredo Tunneling Pseudo-Interface

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

隧道适配器 isatap.{0DA4A980-7247-4922-AAFB-55760B865C15}:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Microsoft ISATAP Adapter #3

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

隧道适配器 isatap.localdomain:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Microsoft ISATAP Adapter #5

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

隧道适配器 本地连接* 15:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Microsoft ISATAP Adapter #6

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

隧道适配器 isatap.{94C5F926-3E20-4589-A88E-54A36934D42C}:

媒体状态 . . . . . . . . . . . . : 媒体已断开

连接特定的 DNS 后缀 . . . . . . . :

描述. . . . . . . . . . . . . . . : Microsoft ISATAP Adapter #8

物理地址. . . . . . . . . . . . . : 00-00-00-00-00-00-00-E0

DHCP 已启用 . . . . . . . . . . . : 否

自动配置已启用. . . . . . . . . . : 是

input >>>

  

解决粘包问题优化版(适用于传输字节很大)

server端

import socket

import subprocess

import struct

import json

def cmd_exec(cmd):

"""

执行shell命令

:param cmd:

:return:

"""

p = subprocess.Popen(cmd, shell=True,

stdin=subprocess.PIPE,stdout=subprocess.PIPE,stderr=subprocess.PIPE)

stdout, stderr = p.communicate()

if p.returncode != 0:

return stderr

return stdout

sock_server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

sock_server.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) # 重用地址端口

sock_server.bind(('127.0.0.1', 8088))

sock_server.listen(1) # 开始监听,1代表在允许有一个连接排队,更多的新连接连进来时就会被拒绝

print('starting...')

while True:

conn, client_addr = sock_server.accept() # 阻塞直到有连接为止,有了一个新连接进来后,就会为这个请求生成一个连接对象

print(client_addr)

while True:

try:

data = conn.recv(1024) # 接收1024个字节

if not data: break # 适用于linux操作系统,防止客户端断开连接后死循环

print('客户端的命令', data.decode('gbk'))

res = cmd_exec(data.decode('gbk')) # 执行cmd命令

# 第一步:制作固定长度的报头dict

header_dict ={

'filename':'文件名',

'md5':'md5值',

'total_size':len(res)

}

header_json = json.dumps(header_dict, ensure_ascii='False',indent=2) # 序列化json

print(header_json)

header_bytes = header_json.encode('utf-8')

header = struct.pack('i', len(header_bytes))

# 第二步:把报头长度发送给客户端

conn.send(header)

# 第三步:把报头内容发送给客户端

conn.send(header_bytes)

# 第四步:再发送真实的数据

conn.sendall(res)

except ConnectionResetError: # 适用于windows操作系统,防止客户端断开连接后死循环

break

conn.close()

server.close()

 client端

import socket

import struct

import json

client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

print(client)

client.connect(('127.0.0.1', 8088))

while True:

data = input('input >>>')

if not data: # 如果数据为空,继续输入

continue

client.send(data.encode('GBK')) # 发送数据

# 第一步:先收报头

header = client.recv(4)

# 第二步:从报头中解析(header数据的长度)

header_size = struct.unpack('i',header)[0]

print('收到报头长度=', header_size)

# 第三步:收到报头解析出对真实数据的描述信息

header_json = client.recv(header_size)

header_dict = json.loads(header_json)

print('收到报头内容=',header_dict)

total_size = header_dict['total_size']

# 第三步:接收真实的数据

recv_size = 0

recv_data = b''

while recv_size < total_size:

data = client.recv(1024) # 接收数据

recv_data += data

recv_size += len(data) # 不能加1024,如果加进度条,会计算有误

print('接收数据 =', recv_data.decode('gbk', 'ignore')) # 如果设置为ignore,则会忽略非法字符;

client.close() # 关闭

 

结果

server端

starting...

('127.0.0.1', 15685)

客户端的命令 ls

{

"filename": "\u6587\u4ef6\u540d",

"md5": "md5\u503c",

"total_size": 61

}

客户端的命令 dir

{

"filename": "\u6587\u4ef6\u540d",

"md5": "md5\u503c",

"total_size": 477

}

client端

<socket.socket fd=216, family=AddressFamily.AF_INET, type=SocketKind.SOCK_STREAM, proto=0>

input >>>ls

收到报头长度= 80

收到报头内容= {'filename': '文件名', 'md5': 'md5值', 'total_size': 61}

接收数据 = 'ls' 不是内部或外部命令,也不是可运行的程序

或批处理文件。

input >>>dir

收到报头长度= 81

收到报头内容= {'filename': '文件名', 'md5': 'md5值', 'total_size': 477}

接收数据 = 驱动器 C 中的卷是 BOOTCAMP

卷的序列号是 D471-4F4D

简单的套接字通信 的目录

2018/07/07 14:51 <DIR> .

2018/07/07 14:51 <DIR> ..

2018/07/05 22:43 594 cmd_util.py

2018/07/07 14:51 1,204 客户端.py

2018/07/07 14:51 2,098 服务端.py

3 个文件 3,896 字节

2 个目录 28,694,999,040 可用字节

input >>>ipconfig/all

收到报头长度= 82

收到报头内容= {'filename': '文件名', 'md5': 'md5值', 'total_size': 7702}

接收数据 =

Windows IP 配置
……

  

 

 

  

  

 

以上是 python粘包分析与解决 的全部内容, 来源链接: utcz.com/z/388606.html

回到顶部