• Java String类源码阅读笔记


    @



    本文基于jdk1.8


    String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。


    一、前置

    String类是Java中非常特别的一个类,虽然不是基本数据类型,但是通过一些处理,又在引用数据类型里比较特别,在学习之前,先了解一些JVM的知识。

    在这里插入图片描述

    • Method Area:方法区,当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后把这些类型信息(包括类信息、常量、静态变量等)放到方法区中,该内存区域被所有线程共享,本地方法区存在一块特殊的内存区域,叫常量池(Constant Pool)。
    • Heap:堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,Java中的。
    • Stack:栈,又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说,它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作:以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
    • Program Count Register:程序计数器,又叫程序寄存器。JVM支持多个线程同时运行,当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)。如果线程正在执行的是一个Java方法(非native),那么PC寄存器的值将总是指向下一条将被执行的指令,如果方法是 native的,程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
    • Native Stack:本地方法栈,存储本地方方法的调用状态。

    常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。Java把内存分为堆内存跟栈内存,前者主要用来存放对象,后者用于存放基本类型变量以及对象的引用。


    二、String类源码解析

    1、String类继承关系

    public final class String
        implements java.io.Serializable, Comparable<String>, CharSequence {
    

    看看String类的定义:

    • String是一个final类,既不能被继承的类
    • String类实现了java.io.Serializable接口,可以实现序列化
    • String类实现了Comparable<String>,可以用于比较大小(按顺序比较单个字符的ASCII码)
    • String类实现了 CharSequence 接口,表示是一个有序字符的序列,因为String的本质是一个char类型数组

    String类继承关系如下图:
    在这里插入图片描述


    String类详细继承关系如下图:

    在这里插入图片描述

    2、成员变量

    首先看看String类有哪些成员变量:

    //用于字符存储的不可变字符数组
    private final char value[];
    // 缓存字符串的哈希码
    private int hash;   //默认为0
    //实现序列化的标识
    private static final long serialVersionUID = -6849794470754667710L;
    

    这些成员变量里需要重点关注:

    • private final char value[] 这是String字符串的本质,是一个字符集合,而且是final的,是不可变的。

    3、构造方法

    • 无参构造方法
       /**
       * 初始化String对象,将""空字符串的value赋值给实例对象的value,也是空字符,因为字符串是不可变的,所以不需要用这个方法
       * 
       */
        public String() {
            this.value = "".value;
        }
    
    

    示例:

    String str = new String()
    str = "hello";
    
    • 1.先创建了一个空的String对象
    • 2.接着又在常量池中创建了一个"hello",并赋值给第二个String
    • 3.将第二个String的引用传递给第一个String
      这种方式实际上创建了两个对象

    • 参数为String的有参构造方法
      /**
      *  参数为一个String对象
      * 将形参的value和hash赋值给实例对象作为初始化
      * 相当于深拷贝了一个形参String对象
      */
        public String(String original) {
            this.value = original.value;
            this.hash = original.hash;
        }
    

    示例:

    String str=new String("hello")
    

    创建了一个对象。


    • 参数为字符数组的有参构造方法
       /**
        * 参数为一个char字符数组
        * 将数组值拷贝赋给不可变字符数组
        * 这里为什么不直接赋值呢?
        * 因为参数char value[]是可变的,如果直接赋值,当参数数组发生变化时,就会影响到新生成的String对象,着就破坏的String的“不可变性”。 
       */
        public String(char value[]) {
            this.value = Arrays.copyOf(value, value.length);
        }
    

    • 参数为字符数组(指定起止位置)的有参构造方法
       /**
       *  参数为char字符数组,offset(起始位置,偏移量),count(个数)
       * 在char数组的基础上,从offset位置开始计数count个,构成一个新的String的字符串
       **/
        public String(char value[], int offset, int count) {
            if (offset < 0) {
                throw new StringIndexOutOfBoundsException(offset);
            }
            if (count <= 0) {
                if (count < 0) {
                    throw new StringIndexOutOfBoundsException(count);
                }
                if (offset <= value.length) {
                    this.value = "".value;
                    return;
                }
            }
            // Note: offset or count might be near -1>>>1.
            if (offset > value.length - count) {
                throw new StringIndexOutOfBoundsException(offset + count);
            }
            this.value = Arrays.copyOfRange(value, offset, offset+count);
        }
    

    • 参数为int数组(指定起止位置)的有参构造方法
      	/** 
    	* 参数为int字符数组,offset(起始位置,偏移量),count(个数)
    	* int数组的元素则是字符对应的ASCII整数值
    	*/
        public String(int[] codePoints, int offset, int count) {
            if (offset < 0) {
                throw new StringIndexOutOfBoundsException(offset);
            }
            if (count <= 0) {
                if (count < 0) {
                    throw new StringIndexOutOfBoundsException(count);
                }
                if (offset <= codePoints.length) {
                    this.value = "".value;
                    return;
                }
            }
            // Note: offset or count might be near -1>>>1.
            if (offset > codePoints.length - count) {
                throw new StringIndexOutOfBoundsException(offset + count);
            }
    
            final int end = offset + count;
    
            // Pass 1: Compute precise size of char[]
            int n = count;
            for (int i = offset; i < end; i++) {
                int c = codePoints[i];
                if (Character.isBmpCodePoint(c))
                    continue;
                else if (Character.isValidCodePoint(c))
                    n++;
                else throw new IllegalArgumentException(Integer.toString(c));
            }
    
            // Pass 2: Allocate and fill in char[]
            final char[] v = new char[n];
    
            for (int i = offset, j = 0; i < end; i++, j++) {
                int c = codePoints[i];
                if (Character.isBmpCodePoint(c))
                    v[j] = (char)c;
                else
                    Character.toSurrogates(c, v, j++);
            }
    
            this.value = v;
        }
    

    有一些标为过时我们就不再关注了。


    • 参数为byte数组(指定起止位置、字符编码)的有参构造方法
      	/** 
    	* 参数为byte数组,offset(起始位置,偏移量),长度,和字符编码格式
    	* 传入一个byte数组,从offset开始截取length个长度,其字符编码格式为charsetName,如UTF-8
    	*/
        public String(byte bytes[], int offset, int length, String charsetName)
                throws UnsupportedEncodingException {
            if (charsetName == null)
                throw new NullPointerException("charsetName");
            //判断byte数组是否越界    
            checkBounds(bytes, offset, length);
            this.value = StringCoding.decode(charsetName, bytes, offset, length);
        }
    
    

    StringCoding类的decode方法:

        static char[] decode(String charsetName, byte[] ba, int off, int len)
            throws UnsupportedEncodingException
        {
            StringDecoder sd = deref(decoder);
            String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
            if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
                                  || csn.equals(sd.charsetName()))) {
                sd = null;
                try {
                    Charset cs = lookupCharset(csn);
                    if (cs != null)
                        sd = new StringDecoder(cs, csn);
                } catch (IllegalCharsetNameException x) {}
                if (sd == null)
                    throw new UnsupportedEncodingException(csn);
                set(decoder, sd);
            }
            return sd.decode(ba, off, len);
        }
    

    其余的从byte数组构造String的构造方法都是调用这个方法,这里就不再赘述。


    • 参数为StringBuffer的有参构造方法
       /**
       *  参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组
       * 线程安全的
       **/
        public String(StringBuffer buffer) {
            synchronized(buffer) {
                this.value = Arrays.copyOf(buffer.getValue(), buffer.length());
            }
        }
    

    使用StringBuilder为参数构造类似,不过不是线程安全的。


    4、长度/判空

    • length()
       /**
       *  返回value数组的长度
       */
        public int length() {
            return value.length;
        }
    
    • isEmpty()
         /**
         *  value数组的长度是否为0
       */
        public boolean isEmpty() {
            return value.length == 0;
        }
    

    5、取字符

    • charAt(int index)
       /**
       * 获取下标为index的value数组字符
       */
        public char charAt(int index) {
            if ((index < 0) || (index >= value.length)) {
                throw new StringIndexOutOfBoundsException(index);
            }
            return value[index];
        }
    
    • codePointAt(int index)
       /**
        * 返回String对象的char数组index位置的元素的ASSIC码(int类型)
        */
        public int codePointAt(int index) {
            if ((index < 0) || (index >= value.length)) {
                throw new StringIndexOutOfBoundsException(index);
            }
            return Character.codePointAtImpl(value, index, value.length);
        }
    
    • codePointBefore(int index)
       /**
        * 返回index位置元素的前一个元素的ASSIC码(int型)
        */
        public int codePointBefore(int index) {
            int i = index - 1;  //获得index前一个元素的索引位置
            if ((i < 0) || (i >= value.length)) { //所以,index不能等于0,因为i = 0 - 1 = -1
                throw new StringIndexOutOfBoundsException(index);
            }
            return Character.codePointBeforeImpl(value, index, 0);
        }
    
    • getChars(char dst[], int dstBegin)
       /**
        * 将value数组dstBegin下标起的字符拷贝给dst
        */
        void getChars(char dst[], int dstBegin) {
            System.arraycopy(value, 0, dst, dstBegin, value.length);
        }
    

    6、比较

    • equals(Object anObject)
       /**
       *  String的equals方法,重写了Object的equals方法(区分大小写)
       * 比较的是两个字符串的值是否相等
       * 参数是一个Object对象,而不是一个String对象。这是因为重写的是Object的equals方法,所以是Object
       */
        public boolean equals(Object anObject) {
            //如果较地址是否相等,是同一个对象
            if (this == anObject) {
                return true;
            }
            //判断anObject是否是String类型
            if (anObject instanceof String) {
               //将anObject转换为String类型
                String anotherString = (String)anObject;
                int n = value.length;
                //判断anotherString是否和当前String的value数组长度相同
                if (n == anotherString.value.length) {
                     //v1为当前String的值,v2为参数对象anotherString的值
                    char v1[] = value;
                    char v2[] = anotherString.value;
                    int i = 0;
                    //每次循环长度-1,直到长度消耗完,循环结束 
                    while (n-- != 0) {
                       //相同下标位置字符串比较,有一个不相同,返回false
                        if (v1[i] != v2[i])
                            return false;
                        i++;
                    }
                    //如比较期间没有问题,则说明相等,返回true
                    return true;
                }
            }
            return false;
        }
    
    • equalsIgnoreCase(String anotherString)
       	/**
    	* 这也是一个String的equals方法,与上一个方法不用,该方法(不区分大小写),从名字也能看出来
    	* 是对String的equals方法的补充。
    	* 这里参数这是一个String对象,而不是Object了,因为这是String本身的方法,不是重写谁的方法
    	*/
        public boolean equalsIgnoreCase(String anotherString) {
           //先判断是否为同一个对象
            return (this == anotherString) ? true
                    : (anotherString != null)
                    //再判断长度是否相等
                    && (anotherString.value.length == value.length)
                    //再调用regionMatchs方法 
                    && regionMatches(true, 0, anotherString, 0, value.length);
        }
    
    • compareTo(String anotherString)
    	/**
    	* 这是一个比较字符串中字符大小的函数,因为String实现了Comparable<String>接口,所以重写了compareTo方法
    	* Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。
    	* 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。
    	* 
    	* 参数是需要比较的另一个String对象
    	* 返回的int类型,正数为大,负数为小,是基于字符的ASSIC码比较的
    	* 
    	*/
        public int compareTo(String anotherString) {
            int len1 = value.length;
            int len2 = anotherString.value.length;
            int lim = Math.min(len1, len2);
            char v1[] = value;
            char v2[] = anotherString.value;
    
            int k = 0;
            while (k < lim) {
                char c1 = v1[k];
                char c2 = v2[k];
                if (c1 != c2) {
                    return c1 - c2;
                }
                k++;
            }
            return len1 - len2;
        }
    

    7、包含

    • startsWith(String prefix, int toffset)
       	/**
    	* 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix
    	* 也可以说当前对象的toffset位置开始是否以prefix作为前缀
    	* prefix是需要判断的前缀字符串,toffset是当前对象的判断起始位置
    	*/
        public boolean startsWith(String prefix, int toffset) {
          //获得当前对象的值
            char ta[] = value;
            //获得需要判断的起始位置,偏移量
            int to = toffset;
            //获得前缀字符串的值
            char pa[] = prefix.value;
            int po = 0;
            int pc = prefix.value.length;
            // Note: toffset might be near -1>>>1.
            if ((toffset < 0) || (toffset > value.length - pc)) {
                return false;
            }
             //循环pc次,既prefix的长度
            while (--pc >= 0) {
            //每次比较当前对象的字符串的字符是否跟prefix一样
                if (ta[to++] != pa[po++]) {
                    //一样则pc--,to++,po++,有一个不同则返回false
                    return false;
                }
            }
            return true;
        }
    
    • startsWith(String prefix)
       // 判断当前对象[0, prefix.value.lenght]区间的字符串片段等于prefix。
        public boolean startsWith(String prefix) {
            return startsWith(prefix, 0);
        }
    
    • endsWith(String suffix)
       //判断当前字符串对象是否以字符串prefix结尾
        public boolean endsWith(String suffix) {
            return startsWith(suffix, value.length - suffix.value.length);
        }
    
        //是否含有CharSequence这个子类元素,通常用于StrngBuffer,StringBuilder
        public boolean contains(CharSequence s) {
            return indexOf(s.toString()) > -1;
        }
    

    8、hashCode

         /**
          * String类重写了Object类的hashCode方法。
          * 哈希表来实现的数据结构来使用,比如String对象要放入HashMap中。
          *
       */
        public int hashCode() {
           //hash是成员变量,所以默认为0
            int h = hash;
            ////如果hash为0,且字符串对象长度大于0,不为""
            if (h == 0 && value.length > 0) {
                //获取当前对象的value
                char val[] = value;
                // 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值 
                for (int i = 0; i < value.length; i++) {
                    //每次都是31 * 每次循环获得的h +第i个字符的ASSIC码
                    h = 31 * h + val[i];
                }
                hash = h;
            }
            return h;
        }
    

    9、查询索引

    • indexOf(int ch, int fromIndex)
    	/**
    	 * index方法就是返回ch字符第一次在字符串中出现的位置
    	 * 既从fromIndex位置开始查找,从头向尾遍历,ch整数对应的字符在字符串中第一次出现的位置
    	 * -1代表字符串没有这个字符,整数代表字符第一次出现在字符串的位置
    	 */
     public int indexOf(int ch, int fromIndex) {
            final int max = value.length;
            if (fromIndex < 0) {
                fromIndex = 0;
            } else if (fromIndex >= max) {
                // Note: fromIndex might be near -1>>>1.
                return -1;
            }
           ////一个char占用两个字节,如果ch小于2的16次方(65536),绝大多数字符都在此范围内
            if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
                // handle most cases here (ch is a BMP code point or a
                // negative value (invalid code point))
                final char[] value = this.value;
                //从 fromIndex位置起遍历value数组
                for (int i = fromIndex; i < max; i++) {
                    //存在相等的字符,返回第一次出现该字符的索引位置,并终止循环
                    if (value[i] == ch) {
                        return i;
                    }
                }
                return -1;
            } else {
                return indexOfSupplementary(ch, fromIndex);
            }
        }
    
    
    
          public int indexOf(int ch) {
            return indexOf(ch, 0);//从第一个字符开始搜索
          }
    
    • indexOf(String str)
    
    /**
    	* 这是一个不对外公开的静态函数
    	* source就是原始字符串,sourceOffset就是原始字符串的偏移量,起始位置。
    	* sourceCount就是原始字符串的长度,target就是要查找的字符串。
    	* fromIndex就是从原始字符串的第fromIndex开始遍历
    	*
    	*/
        static int indexOf(char[] source, int sourceOffset, int sourceCount,
                String target, int fromIndex) {
            return indexOf(source, sourceOffset, sourceCount,
                           target.value, 0, target.value.length,
                           fromIndex);
        }
    
    /**
    	*
    	* 从fromIndex开始遍历,返回第一次出现str字符串的位置
    	*
    	*/
        public int indexOf(String str, int fromIndex) {
            return indexOf(value, 0, value.length,
                    str.value, 0, str.value.length, fromIndex);
        }
    
    	/**
    	* 返回第一次出现的字符串的位置
    	*
    	*/
        public int indexOf(String str) {
            return indexOf(str, 0);
        }
    
    • lastIndexOf(int ch)
       /**
    	* 从尾部向头部遍历,返回cn第一次出现的位置,value.length - 1就是起点 
    	* 为了理解,我们可以认为是返回cn对应的字符在字符串中最后出现的位置
    	*  
    	* ch是字符对应的整数
    	*/
        public int lastIndexOf(int ch) {
            return lastIndexOf(ch, value.length - 1);
        }
    
    • public int lastIndexOf(int ch, int fromIndex)
      /**
    	* 从尾部向头部遍历,从fromIndex开始作为起点,返回ch对应字符第一次在字符串出现的位置
    	* 既从头向尾遍历,返回cn对应字符在字符串中最后出现的一次位置,fromIndex为结束点
    	*
    	*/
        public int lastIndexOf(int ch, int fromIndex) {
            if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
                // handle most cases here (ch is a BMP code point or a
                // negative value (invalid code point))
                final char[] value = this.value;
                int i = Math.min(fromIndex, value.length - 1);
                for (; i >= 0; i--) {
                    if (value[i] == ch) {
                        return i;
                    }
                }
                return -1;
            } else {
                return lastIndexOfSupplementary(ch, fromIndex);
            }
        }
    

    10、获取子串

    • substring(int beginIndex)
       /**
    	*  截取当前字符串对象的片段,组成一个新的字符串对象
    	*  beginIndex为截取的初始位置,默认截到len - 1位置
    	*/
        public String substring(int beginIndex) {
            if (beginIndex < 0) {
                throw new StringIndexOutOfBoundsException(beginIndex);
            }
            int subLen = value.length - beginIndex;
            if (subLen < 0) {
                throw new StringIndexOutOfBoundsException(subLen);
            }
            //利用构造函数生成新的String对象
            return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
        }
    
    • substring(int beginIndex, int endIndex)
       	/**
    	* 截取一个区间范围
    	* [beginIndex,endIndex),不包括endIndex
    	*/
        public String substring(int beginIndex, int endIndex) {
            if (beginIndex < 0) {
                throw new StringIndexOutOfBoundsException(beginIndex);
            }
            if (endIndex > value.length) {
                throw new StringIndexOutOfBoundsException(endIndex);
            }
            int subLen = endIndex - beginIndex;
            if (subLen < 0) {
                throw new StringIndexOutOfBoundsException(subLen);
            }
            return ((beginIndex == 0) && (endIndex == value.length)) ? this
                    : new String(value, beginIndex, subLen);
        }
    

    11、拼接

    • concat(String str)
       /**
    	* String的拼接函数
    	* 例如:String  str = "abc"; str.concat("def")    output: "abcdef"
    	*
    	*/
        public String concat(String str) {
            int otherLen = str.length();
            if (otherLen == 0) {
                return this;
            }
            //获得当前String对象的长度 
            int len = value.length;
            //将数组扩容,将value数组拷贝到buf数组中,长度为len + str.lenght
            char buf[] = Arrays.copyOf(value, len + otherLen);
            //然后将str字符串从buf字符数组的len位置开始覆盖,得到一个完整的buf字符数组
            str.getChars(buf, len);
            //生成新的Strintg对象
            return new String(buf, true);
        }
    
    • join(CharSequence delimiter, CharSequence... elements)
       /**
       * 拼接CharSequence,包含String、StringBuilder、StringBuffer
       */
        public static String join(CharSequence delimiter, CharSequence... elements) {
            Objects.requireNonNull(delimiter);
            Objects.requireNonNull(elements);
            // Number of elements not likely worth Arrays.stream overhead.
            StringJoiner joiner = new StringJoiner(delimiter);
            for (CharSequence cs: elements) {
                joiner.add(cs);
            }
            return joiner.toString();
        }
    
    

    12、替换

    • replace(char oldChar, char newChar)
       //替换,将字符串中的oldChar字符全部替换成newChar
        public String replace(char oldChar, char newChar) {
            if (oldChar != newChar) {
                int len = value.length;
                int i = -1;
                char[] val = value; /* avoid getfield opcode */
                //循环len次 
                while (++i < len) {
                    //找到第一个旧字符,打断循环
                    if (val[i] == oldChar) {
                        break;
                    }
                }
                //如果第一个旧字符的位置小于len
                if (i < len) {
                   //new一个字符数组,len个长度
                    char buf[] = new char[len];
                    for (int j = 0; j < i; j++) {
                       //把旧字符的前面的字符都复制到新字符数组上
                        buf[j] = val[j];
                    }
                     //从i位置开始遍历
                    while (i < len) {
                        char c = val[i];
                        //发现旧字符就替换,不相关的则直接复制
                        buf[i] = (c == oldChar) ? newChar : c;
                        i++;
                    }
                    //通过新字符数组buf重构一个新String对象
                    return new String(buf, true);
                }
            }
            return this;
        }
    
    • replaceAll(String regex, String replacement)
       //当不是正规表达式时,与replace效果一样,都是全体换。如果字符串的正则表达式,则规矩表达式全体替换
        public String replaceAll(String regex, String replacement) {
            return Pattern.compile(regex).matcher(this).replaceAll(replacement);
        }
    

    13、切割

    • split(String regex, int limit)
       /**
       *  根据切割符号切割字符串
       */
        public String[] split(String regex, int limit) {
          /* 1、单个字符,且不是".$|()[{^?*+\"其中一个
           * 2、两个字符,第一个是"",第二个大小写字母或者数字
           */
            char ch = 0;
            if (((regex.value.length == 1 &&
                 ".$|()[{^?*+\".indexOf(ch = regex.charAt(0)) == -1) ||
                 (regex.length() == 2 &&
                  regex.charAt(0) == '\' &&
                  (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
                  ((ch-'a')|('z'-ch)) < 0 &&
                  ((ch-'A')|('Z'-ch)) < 0)) &&
                (ch < Character.MIN_HIGH_SURROGATE ||
                 ch > Character.MAX_LOW_SURROGATE))
            {
                int off = 0;
                int next = 0;
                //大于0,limited==true,反之limited==false
                boolean limited = limit > 0;
                ArrayList<String> list = new ArrayList<>();
                while ((next = indexOf(ch, off)) != -1) {
                //当参数limit<=0 或者 集合list的长度小于 limit-1
                    if (!limited || list.size() < limit - 1) {
                        list.add(substring(off, next));
                        off = next + 1;
                    } else {    // last one
                        //判断最后一个list.size() == limit - 1
                        list.add(substring(off, value.length));
                        off = value.length;
                        break;
                    }
                }
                //如果没有一个能匹配的,返回一个新的字符串,内容和原来的一样
                if (off == 0)
                    return new String[]{this};
    
               // 当 limit<=0 时,limited==false,或者集合的长度 小于 limit是,截取添加剩下的字符串
                if (!limited || list.size() < limit)
                    list.add(substring(off, value.length));
    
                // 当 limit == 0 时,如果末尾添加的元素为空(长度为0),则集合长度不断减1,直到末尾不为空
                int resultSize = list.size();
                if (limit == 0) {
                    while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                        resultSize--;
                    }
                }
                String[] result = new String[resultSize];
                return list.subList(0, resultSize).toArray(result);
            }
            return Pattern.compile(regex).split(this, limit);
        }
    
    • split(String regex)
        public String[] split(String regex) {
            return split(regex, 0);
        }
    

    14、大小写转换

    • toLowerCase(Locale locale)
      /**
      * 将大写字符转换为小写
      */
      public String toLowerCase(Locale locale) {
            if (locale == null) {
                throw new NullPointerException();
            }
    
            int firstUpper;
            final int len = value.length;
    
            /* Now check if there are any characters that need to be changed. */
            scan: {
                for (firstUpper = 0 ; firstUpper < len; ) {
                    char c = value[firstUpper];
                    //判断字符是否大写
                    if ((c >= Character.MIN_HIGH_SURROGATE)
                            && (c <= Character.MAX_HIGH_SURROGATE)) {
                        int supplChar = codePointAt(firstUpper);
                        if (supplChar != Character.toLowerCase(supplChar)) {
                            break scan;
                        }
                        firstUpper += Character.charCount(supplChar);
                    } else {
                        if (c != Character.toLowerCase(c)) {
                            break scan;
                        }
                        firstUpper++;
                    }
                }
                return this;
            }
    
            char[] result = new char[len];
            int resultOffset = 0;  /* result may grow, so i+resultOffset
                                    * is the write location in result */
    
            /* Just copy the first few lowerCase characters. */
            System.arraycopy(value, 0, result, 0, firstUpper);
    
            String lang = locale.getLanguage();
            boolean localeDependent =
                    (lang == "tr" || lang == "az" || lang == "lt");
            char[] lowerCharArray;
            int lowerChar;
            int srcChar;
            int srcCount;
            for (int i = firstUpper; i < len; i += srcCount) {
                srcChar = (int)value[i];
                if ((char)srcChar >= Character.MIN_HIGH_SURROGATE
                        && (char)srcChar <= Character.MAX_HIGH_SURROGATE) {
                    srcChar = codePointAt(i);
                    srcCount = Character.charCount(srcChar);
                } else {
                    srcCount = 1;
                }
                if (localeDependent ||
                    srcChar == 'u03A3' || // GREEK CAPITAL LETTER SIGMA
                    srcChar == 'u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE
                    lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this, i, locale);
                } else {
                    lowerChar = Character.toLowerCase(srcChar);
                }
                if ((lowerChar == Character.ERROR)
                        || (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) {
                    if (lowerChar == Character.ERROR) {
                        lowerCharArray =
                                ConditionalSpecialCasing.toLowerCaseCharArray(this, i, locale);
                    } else if (srcCount == 2) {
                        resultOffset += Character.toChars(lowerChar, result, i + resultOffset) - srcCount;
                        continue;
                    } else {
                        lowerCharArray = Character.toChars(lowerChar);
                    }
    
                    /* Grow result if needed */
                    int mapLen = lowerCharArray.length;
                    if (mapLen > srcCount) {
                        char[] result2 = new char[result.length + mapLen - srcCount];
                        System.arraycopy(result, 0, result2, 0, i + resultOffset);
                        result = result2;
                    }
                    for (int x = 0; x < mapLen; ++x) {
                        result[i + resultOffset + x] = lowerCharArray[x];
                    }
                    resultOffset += (mapLen - srcCount);
                } else {
                    result[i + resultOffset] = (char)lowerChar;
                }
            }
            return new String(result, 0, len + resultOffset);
        }
    

    15、去空格

    • trim()
       /**
    	* 去除字符串首尾部分的空值,如,' ' or " ",非""
    	* 原理是通过substring去实现的,首尾各一个指针
    	* 头指针发现空值就++,尾指针发现空值就--
    	* ' '的Int值为32,其实不仅仅是去空的作用,应该是整数值小于等于32的去除掉
    	*/
        public String trim() {
            //代表尾指针,实际是尾指针+1的大小
            int len = value.length;
            //代表头指针
            int st = 0;
            char[] val = value;    /* avoid getfield opcode */
            //st<len,且字符的整数值小于32则代表有空值,st++
            while ((st < len) && (val[st] <= ' ')) {
                st++;
            }
            //len - 1才是真正的尾指针,如果尾部元素的整数值<=32,则代表有空值,len--
            while ((st < len) && (val[len - 1] <= ' ')) {
                len--;
            }
            ////截取st到len的字符串(不包括len位置)
            return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
        }
    

    16、字符/字符串转换

    • toString()
        //返回自己
        public String toString() {
            return this;
        }
    
    • toCharArray()
       /**
       * 返回value数组的拷贝
       */
        public char[] toCharArray() {
            // Cannot use Arrays.copyOf because of class initialization order issues
            char result[] = new char[value.length];
            System.arraycopy(value, 0, result, 0, value.length);
            return result;
        }
    
    • valueOf(Object obj)
       //将Object转换为字符串
        public static String valueOf(Object obj) {
            return (obj == null) ? "null" : obj.toString();
        }
    

    17、格式化

    • format(String format, Object... args)
       //JAVA字符串格式化
    	//新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。
        public static String format(String format, Object... args) {
            return new Formatter().format(format, args).toString();
        }
    
    • format(Locale l, String format, Object... args)
       //使用指定的语言环境,制定字符串格式和参数生成格式化的字符串。
        public static String format(Locale l, String format, Object... args) {
            return new Formatter(l).format(format, args).toString();
        }
    
    

    18、intern()

    一个本地方法。

    当调用intern方法时,如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串,则返回该字符串。否则,将此String对象添加到池中,并返回此对象的引用。

      public native String intern();
    

    三、常量池

    在查看构造函数的时候,我们知道最常见的两种声明一个字符串对象的形式有两种:

    ①、通过“字面量”的形式直接赋值

    String str = "hello";
    

    ②、通过 new 关键字调用构造函数创建对象

    String str = new String("hello");
    

    这两种声明方式有什么区别呢?首先了解 JDK1.7(不包括1.7)以前的 JVM 的内存分布:

    在这里插入图片描述

    • ①、程序计数器:也称为 PC 寄存器,保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令。线程私有。

    • ②、虚拟机栈:基本数据类型、对象的引用都存放在这。线程私有。

    • ③、本地方法栈:虚拟机栈是为执行Java方法服务的,而本地方法栈则是为执行本地方法(Native Method)服务的。在JVM规范中,并没有对本地方法栈的具体实现方法以及数据结构作强制规定,虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。

    • ④、方法区:存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。注意:在Class文件中除了类的字段、方法、接口等描述信息外,还有一项信息是常量池,用来存储编译期间生成的字面量和符号引用。
    • ⑤、堆:用来存储对象本身的以及数组(当然,数组引用是存放在Java栈中的)。

    在 JDK1.7 以后,方法区的常量池被移除放到堆中了,如下:

    在这里插入图片描述
    常量池:Java运行时会维护一个String Pool(String池), 也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串,并且池中的字符串的内容不重复。

    • ①、字面量创建字符串或者纯字符串(常量)拼接字符串会先在字符串池中找,看是否有相等的对象,没有的话就在字符串池创建该对象;有的话则直接用池中的引用,避免重复创建对象。
    • ②、new关键字创建时,直接在堆中创建一个新对象,变量所引用的都是这个新对象的地址,但是如果通过new关键字创建的字符串内容在常量池中存在了,那么会由堆在指向常量池的对应字符;但是反过来,如果通过new关键字创建的字符串对象在常量池中没有,那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
    • ③、使用包含变量表达式来创建String对象,则不仅会检查维护字符串池,还会在堆区创建这个对象,最后是指向堆内存的对象。
    String str1 = "hello";
    String str2 = "hello";
    String str3 = new String("hello");
    System.out.println(str1==str2);//true
    System.out.println(str1==str3);//fasle
    System.out.println(str2==str3);//fasle
    System.out.println(str1.equals(str2));//true
    System.out.println(str1.equals(str3));//true
    System.out.println(str2.equals(str3));//true
    

    首先 String str1 = "hello",会先到常量池中检查是否有“hello”的存在,发现是没有的,于是在常量池中创建“hello”对象,并将常量池中的引用赋值给str1;

    第二个字面量 String str2 = "hello",在常量池中检测到该对象了,直接将引用赋值给str2;第三个是通过new关键字创建的对象,常量池中有了该对象了,不用在常量池中创建,然后在堆中创建该对象后,将堆中对象的引用赋值给str3,再将该对象指向常量池。如下图所示:

    在这里插入图片描述

    注意:看上图红色的箭头,通过 new 关键字创建的字符串对象,如果常量池中存在了,会将堆中创建的对象指向常量池的引用。

    使用包含变量表达式创建对象:

    String str1 = "hello";
    String str2 = "helloworld";
    String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象)
    String str4 = "hello"+"world";//编译器确定为常量,直接到常量池中引用
    
    System.out.println(str2==str3);//fasle
    System.out.println(str2==str4);//true
    System.out.println(str3==str4);//fasle
    

    str3 由于含有变量str1,编译器不能确定是常量,会在堆区中创建一个String对象。而str4是两个常量相加,直接引用常量池中的对象即可。

    在这里插入图片描述


    四、其它扩展

    1、String 真的不可变吗?

    String 类是用 final 关键字修饰的,不可被继承,仅此而已。

    我们通过阅读源码知道,字符串是由字符组成,字符存在value数组中。

    private final char value[];
    

    value 被 final 修饰,只能保证引用不被改变,但是 value 所指向的堆中的数组,才是真实的数据,只要能够操作堆中的数组,依旧能改变数据。而且 value 是基本类型构成,那么一定是可变的,即使被声明为 private,我们也可以通过反射来改变。

    所以String的不可变性仅仅是正常情况下的不可变,但绝非完全的不可变。


    2、String类为什么要设计为不可变的?

    • 便于实现字符串池(String pool)
    • 多线程安全
    • 避免安全问题
    • 加快字符串处理速度

    3、String对“+”的重载

    在API文档上查阅到:

    Java 语言提供对字符串串联符号("+")以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder(或 StringBuffer)类及其 append 方法实现的。字符串转换是通过 toString 方法实现的,该方法由 Object 类定义,并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息,请参阅 Gosling、Joy 和 Steele 合著的 The Java Language Specification。

    可以通过代码反编译验证一下:

    public class StringDemo01 {
    
        public static void main(String[] args) {
            String a = "abc";
            String b = "def";
            System.out.println("abcdef" == a+b);
        }
    }
    

    通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现

    
    	
    javap -v StringDemo.class
    
    Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class
      Last modified 2020-6-6; size 730 bytes
      MD5 checksum 8847314e26430be9703f9490a6d8ecf3
      Compiled from "StringDemo01.java"
    public class string.StringDemo01
      minor version: 0
      major version: 52
      flags: ACC_PUBLIC, ACC_SUPER
    Constant pool:
       #1 = Methodref          #12.#25        // java/lang/Object."<init>":()V
       #2 = String             #26            // abc
       #3 = String             #27            // def
       #4 = Fieldref           #28.#29        // java/lang/System.out:Ljava/io/PrintStream;
       #5 = String             #30            // abcdef
       #6 = Class              #31            // java/lang/StringBuilder
       #7 = Methodref          #6.#25         // java/lang/StringBuilder."<init>":()V
       #8 = Methodref          #6.#32         // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
       #9 = Methodref          #6.#33         // java/lang/StringBuilder.toString:()Ljava/lang/String;
      #10 = Methodref          #34.#35        // java/io/PrintStream.println:(Z)V
      #11 = Class              #36            // string/StringDemo01
      #12 = Class              #37            // java/lang/Object
      #13 = Utf8               <init>
      #14 = Utf8               ()V
      #15 = Utf8               Code
      #16 = Utf8               LineNumberTable
      #17 = Utf8               main
      #18 = Utf8               ([Ljava/lang/String;)V
      #19 = Utf8               StackMapTable
      #20 = Class              #38            // "[Ljava/lang/String;"
      #21 = Class              #39            // java/lang/String
      #22 = Class              #40            // java/io/PrintStream
      #23 = Utf8               SourceFile
      #24 = Utf8               StringDemo01.java
      #25 = NameAndType        #13:#14        // "<init>":()V
      #26 = Utf8               abc
      #27 = Utf8               def
      #28 = Class              #41            // java/lang/System
      #29 = NameAndType        #42:#43        // out:Ljava/io/PrintStream;
      #30 = Utf8               abcdef
      #31 = Utf8               java/lang/StringBuilder
      #32 = NameAndType        #44:#45        // append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
      #33 = NameAndType        #46:#47        // toString:()Ljava/lang/String;
      #34 = Class              #40            // java/io/PrintStream
      #35 = NameAndType        #48:#49        // println:(Z)V
      #36 = Utf8               string/StringDemo01
      #37 = Utf8               java/lang/Object
      #38 = Utf8               [Ljava/lang/String;
      #39 = Utf8               java/lang/String
      #40 = Utf8               java/io/PrintStream
      #41 = Utf8               java/lang/System
      #42 = Utf8               out
      #43 = Utf8               Ljava/io/PrintStream;
      #44 = Utf8               append
      #45 = Utf8               (Ljava/lang/String;)Ljava/lang/StringBuilder;
      #46 = Utf8               toString
      #47 = Utf8               ()Ljava/lang/String;
      #48 = Utf8               println
      #49 = Utf8               (Z)V
    {
      public string.StringDemo01();
        descriptor: ()V
        flags: ACC_PUBLIC
        Code:
          stack=1, locals=1, args_size=1
             0: aload_0
             1: invokespecial #1                  // Method java/lang/Object."<init>":()V
             4: return
          LineNumberTable:
            line 11: 0
    
      public static void main(java.lang.String[]);
        descriptor: ([Ljava/lang/String;)V
        flags: ACC_PUBLIC, ACC_STATIC
        Code:
          stack=4, locals=3, args_size=1
             0: ldc           #2                  // String abc
             2: astore_1
             3: ldc           #3                  // String def
             5: astore_2
             6: getstatic     #4                  // Field java/lang/System.out:Ljava/io/PrintStream;
             9: ldc           #5                  // String abcdef
            11: new           #6                  // class java/lang/StringBuilder
            14: dup
            15: invokespecial #7                  // Method java/lang/StringBuilder."<init>":()V
            18: aload_1
            19: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
            22: aload_2
            23: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
            26: invokevirtual #9                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
            29: if_acmpne     36
            32: iconst_1
            33: goto          37
            36: iconst_0
            37: invokevirtual #10                 // Method java/io/PrintStream.println:(Z)V
            40: return
          LineNumberTable:
            line 14: 0
            line 15: 3
            line 17: 6
            line 21: 40
          StackMapTable: number_of_entries = 2
            frame_type = 255 /* full_frame */
              offset_delta = 36
              locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
              stack = [ class java/io/PrintStream ]
            frame_type = 255 /* full_frame */
              offset_delta = 0
              locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
              stack = [ class java/io/PrintStream, int ]
    }
    SourceFile: "StringDemo01.java"
    

    String拼接,有字符串变量参与时,中间会产生StringBuilder对象(JDK1.5之前产生StringBuffer)






    参考:

    【1】:String源码分析
    【2】:【Java源码分析】Java8的String源码分析
    【3】:Java String API
    【4】:Java 源码学习系列1——String
    【5】:JDK1.8源码(三)——java.lang.String 类
    【6】:Java中的String为什么要设计成不可变的?
    【7】:String”+”拼接底层实现原理

  • 相关阅读:
    如何将伪数组转换成真正的数组
    JS 中对变量类型的五种判断方法
    ajax详解
    onload和ready的区别
    ES5继承
    跨域的三种解决方式
    如何处理使用js兼容所有浏览器的问题
    Canvas修行之黑客帝国代码雨
    Webpack+React+ES6入门指南[转]
    对于Mongodb数据库的学习
  • 原文地址:https://www.cnblogs.com/three-fighter/p/13693904.html
Copyright © 2020-2023  润新知