code point和code unit（code position） - Kafka

TOP

code point和code unit（code position）

2019-05-11 02:30:56 【大中小】浏览:46次

code point有些地方中文翻译为代码点或码点；code unit有些地方中文翻译为代码单元；不知道准不准确，个人感觉似乎有些不恰当，姑且在本文中就直接用英文名吧。

code point / code position，字符集编码为每个字符（character）指定的一个唯一的整数（integer）。字符编码ASCII包括128个code point，范围是0x00~0x7F；Extended ASCII包括256个code point，范围是0x00~0xFF；Unicode有1114112 个code point范围是0x000000~0x10FFFF。

Unicode code unit是一个特定Unicode字符的编码的位数（bit size）。例如，UTF-8的code unit是8位（8 bits）；UTF-16的code unit是16位；UTF-32的code unit是32位；

根据编码，为了表示一个字符（character）可能需要一个或者多个code unit。UTF-16编码code unit的大小是16位。16位能够表示的code point的个数是0xFFFF+1（这个范围叫做BMP（Basic Multilingual Plane，基本多文种平面），这个范围囊括了世界上常用的字符）。为了表示code point超过BMP范围的字符，UTF-16编码使用代理对（surrogate pair）。在UTF-16编码中，任何code point超过BMP的字符都使用两个16位的code unit表示。所以，UTF-16编码中有些字符可能需要两个code unit，数16位code unit将不能正确代表字符的长度。

Java JVM的String类的使用UTF-16的编码方式。Java的String.length()返回字符串中code unit的数量。从JDK 1.5开始可以使用String.codePointCount(int beginIndex, int endIndex)获取字符的个数，它会把一个代理对视为是一个字符。

看一个代码吧：

public class StringTest {
    public static void main(String[] args) {
        String s = "\u0041\u00DF\u6771\uD801\uDC00";
        System.out.println("length:" + s.length());
        System.out.println("codePointCount:" + s.codePointCount(0, s.length()));
    }
}

代码的运行结果：

length:5
codePointCount:4

明白了String.length()和String.codePointCount(int beginIndex, int endIndex)的功能，应该就明白为什么会有这个结果了。


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：Java IO流学习总结	下一篇：Kafka史上最详细原理总结 ..