3.3 成帧与解析
当然,将数据转换成在线路上传输的格式只完成了一半工作,在接收端还必须将接收到的字节序列还原成原始信息。应用程序协议通常处理的是由一组字段组成的离散的信息。成帧(framing)技术则解决了接收端如何定位消息的首尾位置的问题。无论信息是编码成了文本、多字节二进制数、或是两者的结合,应用程序协议必须指定消息的接收者如何确定何时消息已完整接收。
如果一条完整的消息负载在一个DatagramPacket中发送,这个问题就变得很简单了:DatagramPacket负载的数据有一个确定的长度,接收者能够准确地知道消息的结束位置。然而,如果通过TCP套接字来发送消息,情况将变得更复杂,因为TCP协议中没有消息边界的概念。如果一个消息中的所有字段都有固定的长度,同时每个消息又是由固定数量的字段组成的话,消息的长度就能够确定,接收者就可以简单地将消息长度对应的字节数读到一个byte[]缓存区中。在TCPEchoClient.java示例程序中我们就是用的这个方法,在该例中我们能从服务器获得消息的字节数。但是如果消息的长度是可变的(例如消息中包含了一些变长的文本字符串),我们事先就无法知道需要读取多少字节。
如果接收者试图从套接字中读取比消息本身更多的字节,将可能发生以下两种情况之一:如果信道中没有其他消息,接收者将阻塞等待,同时无法处理接收到的消息;如果发送者也在等待接收端的响应信息,则会形成死锁(deadlock);另一方面,如果信道中还有其他消息,则接收者会将后面消息的一部分甚至全部读到第一条消息中去,这将产生一些协议错误。因此,在使用TCP套接字时,成帧就是一个非常重要的考虑因素。一些相同的考虑也适用于查找消息中每个字段的边界:接收者需要知道每个字段的结束位置和下一个字段的开始位置。因此,我们在此介绍的消息成帧技术几乎都可以应用到字段上。然而,最简单并使代码最简洁的方法是将这两个问题分开处理:首先定位消息的结束位置,然后将消息作为一个整体进行解析。在此我们专注于将整个消息作为一帧进行处理。
主要有两个技术使接收者能够准确地找到消息的结束位置。
·基于定界符(Delimiter-based):消息的结束由一个唯一的标记(unique marker)指出,即发送者在传输完数据后显式添加的一个特殊字节序列。这个特殊标记不能在传输的数据中出现。
·显式长度(Explicit length):在变长字段或消息前附加一个固定大小的字段,用来指示该字段或消息中包含了多少字节。
基于定界符的方法的一个特殊情况是,可以用在TCP连接上传输的最后一个消息上:在发送完这个消息后,发送者就简单地关闭(使用shutdownOutput()或close()方法)发送端的TCP连接。接收者读取完这条消息的最后一个字节后,将接收到一个流结束标记(即read()方法返回-1),该标记指示出已经读取到达了消息的末尾。
基于定界符的方法通常用在以文本方式编码的消息中:定义一个特殊的字符或字符串来标识消息的结束。接收者只需要简单地扫描输入信息(以字节的方式)来查找定界序列,并将定界符前面的字符串返回。这种方法的缺点是消息本身不能包含有定界字符,否则接收者将提前认为消息已经结束。在基于定界符的成帧方法中,发送者要保证满足这个先决条件。幸运的是,填充(stuffing)技术能够对消息中出现的定界符进行修改,从而使接收者不将其识别为定界符。在接收者扫描定界符时,还能识别出修改过的数据,并在输出消息中对其进行还原,从而使其与原始消息一致。这个技术的缺点是发送者和接收者双方都必须扫描消息。
基于长度的方法更简单一些,不过要使用这种方法必须知道消息长度的上限。发送者先要确定消息的长度,将长度信息存入一个整数,作为消息的前缀。消息的长度上限定义了用来编码消息长度所需要的字节数:如果消息的长度小于256字节,则需要1个字节;如果消息的长度小于65 536字节,则需要2个字节等。
为了展示以上技术,我们将介绍下面定义的Framer接口。它有两个方法:frameMsg()方法用来添加成帧信息并将指定消息输出到指定流,nextMsg()方法则扫描指定的流,从中抽取出下一条消息。
Framer.java
DelimFramer.java类实现了基于定界符的成帧方法,其定界符为“换行”符(“\n”,字节值为10)。frameMethod()方法并没有实现填充,当成帧的字节序列中包含有定界符时,它只是简单地抛出异常。(扩展该方法以实现填充功能将作为练习留给读者)nextMsg()方法扫描流,直到读取到了定界符,并返回定界符前面的所有字符,如果流为空则返回null。如果累积了一个消息的不少字符,但直到流结束也没有找到定界符,程序将抛出一个异常来指示成帧错误。
DelimFramer.java
1.构造函数:第11~13行
获取消息的输入流作为参数传递给该函数。
2.frameMsg()方法用于添加帧信息:第15~25行
·校验消息形式的有效性:第17~21行
检查消息中是否包含了定界符,如果包含,则抛出一个异常。
·写消息:第22行
将成帧的消息输出到流中。
·写定界符:第23行
3.nextMsg()方法从输入中提取消息:第27~44行
·读取流中的每个字节,直到遇到定界符为止:第32行
·处理流的终点:第33~39行
如果在遇到定界符之前就已经到了流的终点,则分两种情况:一是从帧的构造开始或从遇到前一个定界符以来,缓存区已经接收了一些字节,这时程序将抛出一个异常;否则nextMsg()方法将返回null以表示全部消息已接收完。
·将无定界符的字节写入消息缓存区:第40行
·将消息缓存区中的内容以字节数组的形式返回:第43行
我们的定界符帧有一个限制,即它不支持多字节定界符。如何对其进行修改以支持多字节定界符将作为练习留给我们的读者。
LengthFramer.java类实现了基于长度的成帧方法,适用于长度小于65 535(216-1)字节的消息。发送者首先给出指定消息的长度,并将长度信息以big-endian顺序存入两个字节的整数中,再将这两个字节放在完整的消息内容前,连同消息一起写入输出流。在接收端,我们使用DataInputStream以读取整型的长度信息;readFully()方法将阻塞等待,直到给定的数组完全填满,这正是我们需要的。值得注意的是,使用这种成帧方法,发送者不需要检查要成帧的消息内容,而只需要检查消息的长度是否超出了限制。
LengthFramer.java
1.构造函数:第14~16行
获取帧消息源的输入流,并将其包裹在一个DataInputStream中。
2.frameMsg()方法用来添加成帧信息:第18~28行
·校验消息长度:第19~21行
由于我们用的是长为两个字节的字段,因此消息的长度不能超过65 535。(注意该值太大而不能存入一个short型整数中,因此我们每次只向输出流写一个字节)。
·输出长度字段:第23~24行
添加长度信息(无符号short型整数)前缀,输出消息的字节数。
·输出消息:第26行
3.nextMsg()方法用于从输入流中提取下一帧:第30~41行
·读取长度前缀:第32~36行
readUnsignedShort()方法读取两个字节,将它们作为big-endian整数进行解释,并以int型整数返回它们的值。
·读取指定数量的字节:第38~39行
readfully()将阻塞等待,直到接收到足够的字节来填满指定的数组。
·以字节的形式返回消息:第40行