说“ Java修改的UTF-8编码”是什么意思？

Z时代
2024-01-10
分类：问答

说“ Java修改的UTF-8编码”是什么意思？与普通的UTF-8编码有何不同？

回答：

这在以下内容的javadoc中进行了详细说明DataInput：

修改后的UTF-8
DataInput和DataOutput接口的实现以略微修改UTF-8的格式表示Unicode字符串。（有关标准UTF-8格式的信息，请参见
Unicode标准版本4.0的3.9 Unicode编码形式 ）。请注意，在下表中，最高有效位出现在最左侧的列中。
…（某些表格，请单击javadoc链接查看自己）…
此格式与标准UTF-8格式之间的区别如下：
空字节'\u0000'以2字节格式而不是1字节编码，因此编码的字符串永远不会嵌入空值。
仅使用1字节，2字节和3字节格式。
*
补充字符以代理对的形式表示。

的javadoc中详细描述了如何阅读DataInput#readUTF()：

readUTF
String readUTF()
           throws IOException
读取已使用修改后的UTF-8格式编码的字符串。的一般约定readUTF是，它读取以修改后的UTF-8格式编码的Unicode字符串的表示形式；然后，将这个字符串作为返回String。
首先，读取两个字节，并以与readUnsignedShort方法完全相同的方式用于构造一个无符号的16位整数。此整数值称为 UTF长度
，它指定要读取的其他字节数。然后将这些字节分组考虑，将其转换为字符。每个组的长度是根据该组的第一个字节的值计算的。组之后的字节（如果有）是下一组的第一个字节。
如果组的第一个字节与位模式匹配0xxxxxxx（其中x表示“可能是” 0或1“”），则该组仅由该字节组成。字节零扩展以形成一个字符。
如果组中的第一个字节与位模式匹配110xxxxx，则该组由该字节a和第二个字节组成b。如果没有字节b（因为字节a是要读取的最后一个字节），或者如果字节b与位模式不匹配10xxxxxx，则UTFDataFormatException抛出a。否则，该组将转换为字符：
(char)(((a& 0x1F) << 6) | (b & 0x3F))
如果一组的第一个字节的比特模式匹配1110xxxx，则该组由字节的a和另外两个字节b和c。如果没有字节c（因为字节a是要读取的最后两个字节之一），或者字节b或字节c与位模式都不匹配10xxxxxx，则UTFDataFormatException抛出a。否则，该组将转换为字符：
(char)(((a & 0x0F) << 12) | ((b & 0x3F) << 6) | (c & 0x3F))
如果组的第一个字节与pattern 1111xxxx或pattern
相匹配10xxxxxx，则UTFDataFormatException抛出a。
如果在此整个过程中的任何时间遇到文件末尾，则将EOFException引发一个。
通过此过程将每个组转换为字符后，将按照从输入流中读取其相应组的顺序收集字符，以形成String，并将其返回。
该writeUTF接口的方法DataOutput可被用来编写适合于通过这种方法读取数据。

以上是说“ Java修改的UTF-8编码”是什么意思？的全部内容，来源链接： utcz.com/qa/421937.html

说“ Java修改的UTF-8编码”是什么意思？

回答：

其他人也看了：