@
本文基于jdk1.8
String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。
一、前置
String类是Java中非常特别的一个类,虽然不是基本数据类型,但是通过一些处理,又在引用数据类型里比较特别,在学习之前,先了解一些JVM的知识。
- Method Area:方法区,当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后把这些类型信息(包括类信息、常量、静态变量等)放到方法区中,该内存区域被所有线程共享,本地方法区存在一块特殊的内存区域,叫常量池(Constant Pool)。
- Heap:堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,Java中的。
- Stack:栈,又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说,它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作:以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
- Program Count Register:程序计数器,又叫程序寄存器。JVM支持多个线程同时运行,当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)。如果线程正在执行的是一个Java方法(非native),那么PC寄存器的值将总是指向下一条将被执行的指令,如果方法是 native的,程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
- Native Stack:本地方法栈,存储本地方方法的调用状态。
常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。Java把内存分为堆内存跟栈内存,前者主要用来存放对象,后者用于存放基本类型变量以及对象的引用。
二、String类源码解析
1、String类继承关系
public final class String
implements java.io.Serializable, Comparable<String>, CharSequence {
看看String类的定义:
- String是一个final类,既不能被继承的类
- String类实现了java.io.Serializable接口,可以实现序列化
- String类实现了Comparable<String>,可以用于比较大小(按顺序比较单个字符的ASCII码)
- String类实现了 CharSequence 接口,表示是一个有序字符的序列,因为String的本质是一个char类型数组
String类继承关系如下图:
String类详细继承关系如下图:
2、成员变量
首先看看String类有哪些成员变量:
//用于字符存储的不可变字符数组
private final char value[];
// 缓存字符串的哈希码
private int hash; //默认为0
//实现序列化的标识
private static final long serialVersionUID = -6849794470754667710L;
这些成员变量里需要重点关注:
- private final char value[] 这是String字符串的本质,是一个字符集合,而且是final的,是不可变的。
3、构造方法
- 无参构造方法
/**
* 初始化String对象,将""空字符串的value赋值给实例对象的value,也是空字符,因为字符串是不可变的,所以不需要用这个方法
*
*/
public String() {
this.value = "".value;
}
示例:
String str = new String()
str = "hello";
- 1.先创建了一个空的String对象
- 2.接着又在常量池中创建了一个"hello",并赋值给第二个String
- 3.将第二个String的引用传递给第一个String
这种方式实际上创建了两个对象
- 参数为String的有参构造方法
/**
* 参数为一个String对象
* 将形参的value和hash赋值给实例对象作为初始化
* 相当于深拷贝了一个形参String对象
*/
public String(String original) {
this.value = original.value;
this.hash = original.hash;
}
示例:
String str=new String("hello")
创建了一个对象。
- 参数为字符数组的有参构造方法
/**
* 参数为一个char字符数组
* 将数组值拷贝赋给不可变字符数组
* 这里为什么不直接赋值呢?
* 因为参数char value[]是可变的,如果直接赋值,当参数数组发生变化时,就会影响到新生成的String对象,着就破坏的String的“不可变性”。
*/
public String(char value[]) {
this.value = Arrays.copyOf(value, value.length);
}
- 参数为字符数组(指定起止位置)的有参构造方法
/**
* 参数为char字符数组,offset(起始位置,偏移量),count(个数)
* 在char数组的基础上,从offset位置开始计数count个,构成一个新的String的字符串
**/
public String(char value[], int offset, int count) {
if (offset < 0) {
throw new StringIndexOutOfBoundsException(offset);
}
if (count <= 0) {
if (count < 0) {
throw new StringIndexOutOfBoundsException(count);
}
if (offset <= value.length) {
this.value = "".value;
return;
}
}
// Note: offset or count might be near -1>>>1.
if (offset > value.length - count) {
throw new StringIndexOutOfBoundsException(offset + count);
}
this.value = Arrays.copyOfRange(value, offset, offset+count);
}
- 参数为int数组(指定起止位置)的有参构造方法
/**
* 参数为int字符数组,offset(起始位置,偏移量),count(个数)
* int数组的元素则是字符对应的ASCII整数值
*/
public String(int[] codePoints, int offset, int count) {
if (offset < 0) {
throw new StringIndexOutOfBoundsException(offset);
}
if (count <= 0) {
if (count < 0) {
throw new StringIndexOutOfBoundsException(count);
}
if (offset <= codePoints.length) {
this.value = "".value;
return;
}
}
// Note: offset or count might be near -1>>>1.
if (offset > codePoints.length - count) {
throw new StringIndexOutOfBoundsException(offset + count);
}
final int end = offset + count;
// Pass 1: Compute precise size of char[]
int n = count;
for (int i = offset; i < end; i++) {
int c = codePoints[i];
if (Character.isBmpCodePoint(c))
continue;
else if (Character.isValidCodePoint(c))
n++;
else throw new IllegalArgumentException(Integer.toString(c));
}
// Pass 2: Allocate and fill in char[]
final char[] v = new char[n];
for (int i = offset, j = 0; i < end; i++, j++) {
int c = codePoints[i];
if (Character.isBmpCodePoint(c))
v[j] = (char)c;
else
Character.toSurrogates(c, v, j++);
}
this.value = v;
}
有一些标为过时我们就不再关注了。
- 参数为byte数组(指定起止位置、字符编码)的有参构造方法
/**
* 参数为byte数组,offset(起始位置,偏移量),长度,和字符编码格式
* 传入一个byte数组,从offset开始截取length个长度,其字符编码格式为charsetName,如UTF-8
*/
public String(byte bytes[], int offset, int length, String charsetName)
throws UnsupportedEncodingException {
if (charsetName == null)
throw new NullPointerException("charsetName");
//判断byte数组是否越界
checkBounds(bytes, offset, length);
this.value = StringCoding.decode(charsetName, bytes, offset, length);
}
StringCoding类的decode方法:
static char[] decode(String charsetName, byte[] ba, int off, int len)
throws UnsupportedEncodingException
{
StringDecoder sd = deref(decoder);
String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
|| csn.equals(sd.charsetName()))) {
sd = null;
try {
Charset cs = lookupCharset(csn);
if (cs != null)
sd = new StringDecoder(cs, csn);
} catch (IllegalCharsetNameException x) {}
if (sd == null)
throw new UnsupportedEncodingException(csn);
set(decoder, sd);
}
return sd.decode(ba, off, len);
}
其余的从byte数组构造String的构造方法都是调用这个方法,这里就不再赘述。
- 参数为StringBuffer的有参构造方法
/**
* 参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组
* 线程安全的
**/
public String(StringBuffer buffer) {
synchronized(buffer) {
this.value = Arrays.copyOf(buffer.getValue(), buffer.length());
}
}
使用StringBuilder为参数构造类似,不过不是线程安全的。
4、长度/判空
- length()
/**
* 返回value数组的长度
*/
public int length() {
return value.length;
}
- isEmpty()
/**
* value数组的长度是否为0
*/
public boolean isEmpty() {
return value.length == 0;
}
5、取字符
- charAt(int index)
/**
* 获取下标为index的value数组字符
*/
public char charAt(int index) {
if ((index < 0) || (index >= value.length)) {
throw new StringIndexOutOfBoundsException(index);
}
return value[index];
}
- codePointAt(int index)
/**
* 返回String对象的char数组index位置的元素的ASSIC码(int类型)
*/
public int codePointAt(int index) {
if ((index < 0) || (index >= value.length)) {
throw new StringIndexOutOfBoundsException(index);
}
return Character.codePointAtImpl(value, index, value.length);
}
- codePointBefore(int index)
/**
* 返回index位置元素的前一个元素的ASSIC码(int型)
*/
public int codePointBefore(int index) {
int i = index - 1; //获得index前一个元素的索引位置
if ((i < 0) || (i >= value.length)) { //所以,index不能等于0,因为i = 0 - 1 = -1
throw new StringIndexOutOfBoundsException(index);
}
return Character.codePointBeforeImpl(value, index, 0);
}
- getChars(char dst[], int dstBegin)
/**
* 将value数组dstBegin下标起的字符拷贝给dst
*/
void getChars(char dst[], int dstBegin) {
System.arraycopy(value, 0, dst, dstBegin, value.length);
}
6、比较
- equals(Object anObject)
/**
* String的equals方法,重写了Object的equals方法(区分大小写)
* 比较的是两个字符串的值是否相等
* 参数是一个Object对象,而不是一个String对象。这是因为重写的是Object的equals方法,所以是Object
*/
public boolean equals(Object anObject) {
//如果较地址是否相等,是同一个对象
if (this == anObject) {
return true;
}
//判断anObject是否是String类型
if (anObject instanceof String) {
//将anObject转换为String类型
String anotherString = (String)anObject;
int n = value.length;
//判断anotherString是否和当前String的value数组长度相同
if (n == anotherString.value.length) {
//v1为当前String的值,v2为参数对象anotherString的值
char v1[] = value;
char v2[] = anotherString.value;
int i = 0;
//每次循环长度-1,直到长度消耗完,循环结束
while (n-- != 0) {
//相同下标位置字符串比较,有一个不相同,返回false
if (v1[i] != v2[i])
return false;
i++;
}
//如比较期间没有问题,则说明相等,返回true
return true;
}
}
return false;
}
- equalsIgnoreCase(String anotherString)
/**
* 这也是一个String的equals方法,与上一个方法不用,该方法(不区分大小写),从名字也能看出来
* 是对String的equals方法的补充。
* 这里参数这是一个String对象,而不是Object了,因为这是String本身的方法,不是重写谁的方法
*/
public boolean equalsIgnoreCase(String anotherString) {
//先判断是否为同一个对象
return (this == anotherString) ? true
: (anotherString != null)
//再判断长度是否相等
&& (anotherString.value.length == value.length)
//再调用regionMatchs方法
&& regionMatches(true, 0, anotherString, 0, value.length);
}
- compareTo(String anotherString)
/**
* 这是一个比较字符串中字符大小的函数,因为String实现了Comparable<String>接口,所以重写了compareTo方法
* Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。
* 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。
*
* 参数是需要比较的另一个String对象
* 返回的int类型,正数为大,负数为小,是基于字符的ASSIC码比较的
*
*/
public int compareTo(String anotherString) {
int len1 = value.length;
int len2 = anotherString.value.length;
int lim = Math.min(len1, len2);
char v1[] = value;
char v2[] = anotherString.value;
int k = 0;
while (k < lim) {
char c1 = v1[k];
char c2 = v2[k];
if (c1 != c2) {
return c1 - c2;
}
k++;
}
return len1 - len2;
}
7、包含
- startsWith(String prefix, int toffset)
/**
* 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix
* 也可以说当前对象的toffset位置开始是否以prefix作为前缀
* prefix是需要判断的前缀字符串,toffset是当前对象的判断起始位置
*/
public boolean startsWith(String prefix, int toffset) {
//获得当前对象的值
char ta[] = value;
//获得需要判断的起始位置,偏移量
int to = toffset;
//获得前缀字符串的值
char pa[] = prefix.value;
int po = 0;
int pc = prefix.value.length;
// Note: toffset might be near -1>>>1.
if ((toffset < 0) || (toffset > value.length - pc)) {
return false;
}
//循环pc次,既prefix的长度
while (--pc >= 0) {
//每次比较当前对象的字符串的字符是否跟prefix一样
if (ta[to++] != pa[po++]) {
//一样则pc--,to++,po++,有一个不同则返回false
return false;
}
}
return true;
}
- startsWith(String prefix)
// 判断当前对象[0, prefix.value.lenght]区间的字符串片段等于prefix。
public boolean startsWith(String prefix) {
return startsWith(prefix, 0);
}
- endsWith(String suffix)
//判断当前字符串对象是否以字符串prefix结尾
public boolean endsWith(String suffix) {
return startsWith(suffix, value.length - suffix.value.length);
}
//是否含有CharSequence这个子类元素,通常用于StrngBuffer,StringBuilder
public boolean contains(CharSequence s) {
return indexOf(s.toString()) > -1;
}
8、hashCode
/**
* String类重写了Object类的hashCode方法。
* 哈希表来实现的数据结构来使用,比如String对象要放入HashMap中。
*
*/
public int hashCode() {
//hash是成员变量,所以默认为0
int h = hash;
////如果hash为0,且字符串对象长度大于0,不为""
if (h == 0 && value.length > 0) {
//获取当前对象的value
char val[] = value;
// 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值
for (int i = 0; i < value.length; i++) {
//每次都是31 * 每次循环获得的h +第i个字符的ASSIC码
h = 31 * h + val[i];
}
hash = h;
}
return h;
}
9、查询索引
- indexOf(int ch, int fromIndex)
/**
* index方法就是返回ch字符第一次在字符串中出现的位置
* 既从fromIndex位置开始查找,从头向尾遍历,ch整数对应的字符在字符串中第一次出现的位置
* -1代表字符串没有这个字符,整数代表字符第一次出现在字符串的位置
*/
public int indexOf(int ch, int fromIndex) {
final int max = value.length;
if (fromIndex < 0) {
fromIndex = 0;
} else if (fromIndex >= max) {
// Note: fromIndex might be near -1>>>1.
return -1;
}
////一个char占用两个字节,如果ch小于2的16次方(65536),绝大多数字符都在此范围内
if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
// handle most cases here (ch is a BMP code point or a
// negative value (invalid code point))
final char[] value = this.value;
//从 fromIndex位置起遍历value数组
for (int i = fromIndex; i < max; i++) {
//存在相等的字符,返回第一次出现该字符的索引位置,并终止循环
if (value[i] == ch) {
return i;
}
}
return -1;
} else {
return indexOfSupplementary(ch, fromIndex);
}
}
public int indexOf(int ch) {
return indexOf(ch, 0);//从第一个字符开始搜索
}
- indexOf(String str)
/**
* 这是一个不对外公开的静态函数
* source就是原始字符串,sourceOffset就是原始字符串的偏移量,起始位置。
* sourceCount就是原始字符串的长度,target就是要查找的字符串。
* fromIndex就是从原始字符串的第fromIndex开始遍历
*
*/
static int indexOf(char[] source, int sourceOffset, int sourceCount,
String target, int fromIndex) {
return indexOf(source, sourceOffset, sourceCount,
target.value, 0, target.value.length,
fromIndex);
}
/**
*
* 从fromIndex开始遍历,返回第一次出现str字符串的位置
*
*/
public int indexOf(String str, int fromIndex) {
return indexOf(value, 0, value.length,
str.value, 0, str.value.length, fromIndex);
}
/**
* 返回第一次出现的字符串的位置
*
*/
public int indexOf(String str) {
return indexOf(str, 0);
}
- lastIndexOf(int ch)
/**
* 从尾部向头部遍历,返回cn第一次出现的位置,value.length - 1就是起点
* 为了理解,我们可以认为是返回cn对应的字符在字符串中最后出现的位置
*
* ch是字符对应的整数
*/
public int lastIndexOf(int ch) {
return lastIndexOf(ch, value.length - 1);
}
- public int lastIndexOf(int ch, int fromIndex)
/**
* 从尾部向头部遍历,从fromIndex开始作为起点,返回ch对应字符第一次在字符串出现的位置
* 既从头向尾遍历,返回cn对应字符在字符串中最后出现的一次位置,fromIndex为结束点
*
*/
public int lastIndexOf(int ch, int fromIndex) {
if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
// handle most cases here (ch is a BMP code point or a
// negative value (invalid code point))
final char[] value = this.value;
int i = Math.min(fromIndex, value.length - 1);
for (; i >= 0; i--) {
if (value[i] == ch) {
return i;
}
}
return -1;
} else {
return lastIndexOfSupplementary(ch, fromIndex);
}
}
10、获取子串
- substring(int beginIndex)
/**
* 截取当前字符串对象的片段,组成一个新的字符串对象
* beginIndex为截取的初始位置,默认截到len - 1位置
*/
public String substring(int beginIndex) {
if (beginIndex < 0) {
throw new StringIndexOutOfBoundsException(beginIndex);
}
int subLen = value.length - beginIndex;
if (subLen < 0) {
throw new StringIndexOutOfBoundsException(subLen);
}
//利用构造函数生成新的String对象
return (beginIndex == 0) ? this : new String(value, beginIndex, subLen);
}
- substring(int beginIndex, int endIndex)
/**
* 截取一个区间范围
* [beginIndex,endIndex),不包括endIndex
*/
public String substring(int beginIndex, int endIndex) {
if (beginIndex < 0) {
throw new StringIndexOutOfBoundsException(beginIndex);
}
if (endIndex > value.length) {
throw new StringIndexOutOfBoundsException(endIndex);
}
int subLen = endIndex - beginIndex;
if (subLen < 0) {
throw new StringIndexOutOfBoundsException(subLen);
}
return ((beginIndex == 0) && (endIndex == value.length)) ? this
: new String(value, beginIndex, subLen);
}
11、拼接
- concat(String str)
/**
* String的拼接函数
* 例如:String str = "abc"; str.concat("def") output: "abcdef"
*
*/
public String concat(String str) {
int otherLen = str.length();
if (otherLen == 0) {
return this;
}
//获得当前String对象的长度
int len = value.length;
//将数组扩容,将value数组拷贝到buf数组中,长度为len + str.lenght
char buf[] = Arrays.copyOf(value, len + otherLen);
//然后将str字符串从buf字符数组的len位置开始覆盖,得到一个完整的buf字符数组
str.getChars(buf, len);
//生成新的Strintg对象
return new String(buf, true);
}
- join(CharSequence delimiter, CharSequence... elements)
/**
* 拼接CharSequence,包含String、StringBuilder、StringBuffer
*/
public static String join(CharSequence delimiter, CharSequence... elements) {
Objects.requireNonNull(delimiter);
Objects.requireNonNull(elements);
// Number of elements not likely worth Arrays.stream overhead.
StringJoiner joiner = new StringJoiner(delimiter);
for (CharSequence cs: elements) {
joiner.add(cs);
}
return joiner.toString();
}
12、替换
- replace(char oldChar, char newChar)
//替换,将字符串中的oldChar字符全部替换成newChar
public String replace(char oldChar, char newChar) {
if (oldChar != newChar) {
int len = value.length;
int i = -1;
char[] val = value; /* avoid getfield opcode */
//循环len次
while (++i < len) {
//找到第一个旧字符,打断循环
if (val[i] == oldChar) {
break;
}
}
//如果第一个旧字符的位置小于len
if (i < len) {
//new一个字符数组,len个长度
char buf[] = new char[len];
for (int j = 0; j < i; j++) {
//把旧字符的前面的字符都复制到新字符数组上
buf[j] = val[j];
}
//从i位置开始遍历
while (i < len) {
char c = val[i];
//发现旧字符就替换,不相关的则直接复制
buf[i] = (c == oldChar) ? newChar : c;
i++;
}
//通过新字符数组buf重构一个新String对象
return new String(buf, true);
}
}
return this;
}
- replaceAll(String regex, String replacement)
//当不是正规表达式时,与replace效果一样,都是全体换。如果字符串的正则表达式,则规矩表达式全体替换
public String replaceAll(String regex, String replacement) {
return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}
13、切割
- split(String regex, int limit)
/**
* 根据切割符号切割字符串
*/
public String[] split(String regex, int limit) {
/* 1、单个字符,且不是".$|()[{^?*+\"其中一个
* 2、两个字符,第一个是"",第二个大小写字母或者数字
*/
char ch = 0;
if (((regex.value.length == 1 &&
".$|()[{^?*+\".indexOf(ch = regex.charAt(0)) == -1) ||
(regex.length() == 2 &&
regex.charAt(0) == '\' &&
(((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
((ch-'a')|('z'-ch)) < 0 &&
((ch-'A')|('Z'-ch)) < 0)) &&
(ch < Character.MIN_HIGH_SURROGATE ||
ch > Character.MAX_LOW_SURROGATE))
{
int off = 0;
int next = 0;
//大于0,limited==true,反之limited==false
boolean limited = limit > 0;
ArrayList<String> list = new ArrayList<>();
while ((next = indexOf(ch, off)) != -1) {
//当参数limit<=0 或者 集合list的长度小于 limit-1
if (!limited || list.size() < limit - 1) {
list.add(substring(off, next));
off = next + 1;
} else { // last one
//判断最后一个list.size() == limit - 1
list.add(substring(off, value.length));
off = value.length;
break;
}
}
//如果没有一个能匹配的,返回一个新的字符串,内容和原来的一样
if (off == 0)
return new String[]{this};
// 当 limit<=0 时,limited==false,或者集合的长度 小于 limit是,截取添加剩下的字符串
if (!limited || list.size() < limit)
list.add(substring(off, value.length));
// 当 limit == 0 时,如果末尾添加的元素为空(长度为0),则集合长度不断减1,直到末尾不为空
int resultSize = list.size();
if (limit == 0) {
while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
resultSize--;
}
}
String[] result = new String[resultSize];
return list.subList(0, resultSize).toArray(result);
}
return Pattern.compile(regex).split(this, limit);
}
- split(String regex)
public String[] split(String regex) {
return split(regex, 0);
}
14、大小写转换
- toLowerCase(Locale locale)
/**
* 将大写字符转换为小写
*/
public String toLowerCase(Locale locale) {
if (locale == null) {
throw new NullPointerException();
}
int firstUpper;
final int len = value.length;
/* Now check if there are any characters that need to be changed. */
scan: {
for (firstUpper = 0 ; firstUpper < len; ) {
char c = value[firstUpper];
//判断字符是否大写
if ((c >= Character.MIN_HIGH_SURROGATE)
&& (c <= Character.MAX_HIGH_SURROGATE)) {
int supplChar = codePointAt(firstUpper);
if (supplChar != Character.toLowerCase(supplChar)) {
break scan;
}
firstUpper += Character.charCount(supplChar);
} else {
if (c != Character.toLowerCase(c)) {
break scan;
}
firstUpper++;
}
}
return this;
}
char[] result = new char[len];
int resultOffset = 0; /* result may grow, so i+resultOffset
* is the write location in result */
/* Just copy the first few lowerCase characters. */
System.arraycopy(value, 0, result, 0, firstUpper);
String lang = locale.getLanguage();
boolean localeDependent =
(lang == "tr" || lang == "az" || lang == "lt");
char[] lowerCharArray;
int lowerChar;
int srcChar;
int srcCount;
for (int i = firstUpper; i < len; i += srcCount) {
srcChar = (int)value[i];
if ((char)srcChar >= Character.MIN_HIGH_SURROGATE
&& (char)srcChar <= Character.MAX_HIGH_SURROGATE) {
srcChar = codePointAt(i);
srcCount = Character.charCount(srcChar);
} else {
srcCount = 1;
}
if (localeDependent ||
srcChar == 'u03A3' || // GREEK CAPITAL LETTER SIGMA
srcChar == 'u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE
lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this, i, locale);
} else {
lowerChar = Character.toLowerCase(srcChar);
}
if ((lowerChar == Character.ERROR)
|| (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) {
if (lowerChar == Character.ERROR) {
lowerCharArray =
ConditionalSpecialCasing.toLowerCaseCharArray(this, i, locale);
} else if (srcCount == 2) {
resultOffset += Character.toChars(lowerChar, result, i + resultOffset) - srcCount;
continue;
} else {
lowerCharArray = Character.toChars(lowerChar);
}
/* Grow result if needed */
int mapLen = lowerCharArray.length;
if (mapLen > srcCount) {
char[] result2 = new char[result.length + mapLen - srcCount];
System.arraycopy(result, 0, result2, 0, i + resultOffset);
result = result2;
}
for (int x = 0; x < mapLen; ++x) {
result[i + resultOffset + x] = lowerCharArray[x];
}
resultOffset += (mapLen - srcCount);
} else {
result[i + resultOffset] = (char)lowerChar;
}
}
return new String(result, 0, len + resultOffset);
}
15、去空格
- trim()
/**
* 去除字符串首尾部分的空值,如,' ' or " ",非""
* 原理是通过substring去实现的,首尾各一个指针
* 头指针发现空值就++,尾指针发现空值就--
* ' '的Int值为32,其实不仅仅是去空的作用,应该是整数值小于等于32的去除掉
*/
public String trim() {
//代表尾指针,实际是尾指针+1的大小
int len = value.length;
//代表头指针
int st = 0;
char[] val = value; /* avoid getfield opcode */
//st<len,且字符的整数值小于32则代表有空值,st++
while ((st < len) && (val[st] <= ' ')) {
st++;
}
//len - 1才是真正的尾指针,如果尾部元素的整数值<=32,则代表有空值,len--
while ((st < len) && (val[len - 1] <= ' ')) {
len--;
}
////截取st到len的字符串(不包括len位置)
return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}
16、字符/字符串转换
- toString()
//返回自己
public String toString() {
return this;
}
- toCharArray()
/**
* 返回value数组的拷贝
*/
public char[] toCharArray() {
// Cannot use Arrays.copyOf because of class initialization order issues
char result[] = new char[value.length];
System.arraycopy(value, 0, result, 0, value.length);
return result;
}
- valueOf(Object obj)
//将Object转换为字符串
public static String valueOf(Object obj) {
return (obj == null) ? "null" : obj.toString();
}
17、格式化
- format(String format, Object... args)
//JAVA字符串格式化
//新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。
public static String format(String format, Object... args) {
return new Formatter().format(format, args).toString();
}
- format(Locale l, String format, Object... args)
//使用指定的语言环境,制定字符串格式和参数生成格式化的字符串。
public static String format(Locale l, String format, Object... args) {
return new Formatter(l).format(format, args).toString();
}
18、intern()
一个本地方法。
当调用intern方法时,如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串,则返回该字符串。否则,将此String对象添加到池中,并返回此对象的引用。
public native String intern();
三、常量池
在查看构造函数的时候,我们知道最常见的两种声明一个字符串对象的形式有两种:
①、通过“字面量”的形式直接赋值
String str = "hello";
②、通过 new 关键字调用构造函数创建对象
String str = new String("hello");
这两种声明方式有什么区别呢?首先了解 JDK1.7(不包括1.7)以前的 JVM 的内存分布:
-
①、程序计数器:也称为 PC 寄存器,保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令。线程私有。
-
②、虚拟机栈:基本数据类型、对象的引用都存放在这。线程私有。
-
③、本地方法栈:虚拟机栈是为执行Java方法服务的,而本地方法栈则是为执行本地方法(Native Method)服务的。在JVM规范中,并没有对本地方法栈的具体实现方法以及数据结构作强制规定,虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。
- ④、方法区:存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。注意:在Class文件中除了类的字段、方法、接口等描述信息外,还有一项信息是常量池,用来存储编译期间生成的字面量和符号引用。
- ⑤、堆:用来存储对象本身的以及数组(当然,数组引用是存放在Java栈中的)。
在 JDK1.7 以后,方法区的常量池被移除放到堆中了,如下:
常量池:Java运行时会维护一个String Pool(String池), 也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串,并且池中的字符串的内容不重复。
- ①、字面量创建字符串或者纯字符串(常量)拼接字符串会先在字符串池中找,看是否有相等的对象,没有的话就在字符串池创建该对象;有的话则直接用池中的引用,避免重复创建对象。
- ②、new关键字创建时,直接在堆中创建一个新对象,变量所引用的都是这个新对象的地址,但是如果通过new关键字创建的字符串内容在常量池中存在了,那么会由堆在指向常量池的对应字符;但是反过来,如果通过new关键字创建的字符串对象在常量池中没有,那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
- ③、使用包含变量表达式来创建String对象,则不仅会检查维护字符串池,还会在堆区创建这个对象,最后是指向堆内存的对象。
String str1 = "hello";
String str2 = "hello";
String str3 = new String("hello");
System.out.println(str1==str2);//true
System.out.println(str1==str3);//fasle
System.out.println(str2==str3);//fasle
System.out.println(str1.equals(str2));//true
System.out.println(str1.equals(str3));//true
System.out.println(str2.equals(str3));//true
首先 String str1 = "hello",会先到常量池中检查是否有“hello”的存在,发现是没有的,于是在常量池中创建“hello”对象,并将常量池中的引用赋值给str1;
第二个字面量 String str2 = "hello",在常量池中检测到该对象了,直接将引用赋值给str2;第三个是通过new关键字创建的对象,常量池中有了该对象了,不用在常量池中创建,然后在堆中创建该对象后,将堆中对象的引用赋值给str3,再将该对象指向常量池。如下图所示:
注意:看上图红色的箭头,通过 new 关键字创建的字符串对象,如果常量池中存在了,会将堆中创建的对象指向常量池的引用。
使用包含变量表达式创建对象:
String str1 = "hello";
String str2 = "helloworld";
String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象)
String str4 = "hello"+"world";//编译器确定为常量,直接到常量池中引用
System.out.println(str2==str3);//fasle
System.out.println(str2==str4);//true
System.out.println(str3==str4);//fasle
str3 由于含有变量str1,编译器不能确定是常量,会在堆区中创建一个String对象。而str4是两个常量相加,直接引用常量池中的对象即可。
四、其它扩展
1、String 真的不可变吗?
String 类是用 final 关键字修饰的,不可被继承,仅此而已。
我们通过阅读源码知道,字符串是由字符组成,字符存在value数组中。
private final char value[];
value 被 final 修饰,只能保证引用不被改变,但是 value 所指向的堆中的数组,才是真实的数据,只要能够操作堆中的数组,依旧能改变数据。而且 value 是基本类型构成,那么一定是可变的,即使被声明为 private,我们也可以通过反射来改变。
所以String的不可变性仅仅是正常情况下的不可变,但绝非完全的不可变。
2、String类为什么要设计为不可变的?
- 便于实现字符串池(String pool)
- 多线程安全
- 避免安全问题
- 加快字符串处理速度
3、String对“+”的重载
在API文档上查阅到:
Java 语言提供对字符串串联符号("+")以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder(或 StringBuffer)类及其 append 方法实现的。字符串转换是通过 toString 方法实现的,该方法由 Object 类定义,并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息,请参阅 Gosling、Joy 和 Steele 合著的 The Java Language Specification。
可以通过代码反编译验证一下:
public class StringDemo01 {
public static void main(String[] args) {
String a = "abc";
String b = "def";
System.out.println("abcdef" == a+b);
}
}
通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现
javap -v StringDemo.class
Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class
Last modified 2020-6-6; size 730 bytes
MD5 checksum 8847314e26430be9703f9490a6d8ecf3
Compiled from "StringDemo01.java"
public class string.StringDemo01
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #12.#25 // java/lang/Object."<init>":()V
#2 = String #26 // abc
#3 = String #27 // def
#4 = Fieldref #28.#29 // java/lang/System.out:Ljava/io/PrintStream;
#5 = String #30 // abcdef
#6 = Class #31 // java/lang/StringBuilder
#7 = Methodref #6.#25 // java/lang/StringBuilder."<init>":()V
#8 = Methodref #6.#32 // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
#9 = Methodref #6.#33 // java/lang/StringBuilder.toString:()Ljava/lang/String;
#10 = Methodref #34.#35 // java/io/PrintStream.println:(Z)V
#11 = Class #36 // string/StringDemo01
#12 = Class #37 // java/lang/Object
#13 = Utf8 <init>
#14 = Utf8 ()V
#15 = Utf8 Code
#16 = Utf8 LineNumberTable
#17 = Utf8 main
#18 = Utf8 ([Ljava/lang/String;)V
#19 = Utf8 StackMapTable
#20 = Class #38 // "[Ljava/lang/String;"
#21 = Class #39 // java/lang/String
#22 = Class #40 // java/io/PrintStream
#23 = Utf8 SourceFile
#24 = Utf8 StringDemo01.java
#25 = NameAndType #13:#14 // "<init>":()V
#26 = Utf8 abc
#27 = Utf8 def
#28 = Class #41 // java/lang/System
#29 = NameAndType #42:#43 // out:Ljava/io/PrintStream;
#30 = Utf8 abcdef
#31 = Utf8 java/lang/StringBuilder
#32 = NameAndType #44:#45 // append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
#33 = NameAndType #46:#47 // toString:()Ljava/lang/String;
#34 = Class #40 // java/io/PrintStream
#35 = NameAndType #48:#49 // println:(Z)V
#36 = Utf8 string/StringDemo01
#37 = Utf8 java/lang/Object
#38 = Utf8 [Ljava/lang/String;
#39 = Utf8 java/lang/String
#40 = Utf8 java/io/PrintStream
#41 = Utf8 java/lang/System
#42 = Utf8 out
#43 = Utf8 Ljava/io/PrintStream;
#44 = Utf8 append
#45 = Utf8 (Ljava/lang/String;)Ljava/lang/StringBuilder;
#46 = Utf8 toString
#47 = Utf8 ()Ljava/lang/String;
#48 = Utf8 println
#49 = Utf8 (Z)V
{
public string.StringDemo01();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 11: 0
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=4, locals=3, args_size=1
0: ldc #2 // String abc
2: astore_1
3: ldc #3 // String def
5: astore_2
6: getstatic #4 // Field java/lang/System.out:Ljava/io/PrintStream;
9: ldc #5 // String abcdef
11: new #6 // class java/lang/StringBuilder
14: dup
15: invokespecial #7 // Method java/lang/StringBuilder."<init>":()V
18: aload_1
19: invokevirtual #8 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
22: aload_2
23: invokevirtual #8 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
26: invokevirtual #9 // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
29: if_acmpne 36
32: iconst_1
33: goto 37
36: iconst_0
37: invokevirtual #10 // Method java/io/PrintStream.println:(Z)V
40: return
LineNumberTable:
line 14: 0
line 15: 3
line 17: 6
line 21: 40
StackMapTable: number_of_entries = 2
frame_type = 255 /* full_frame */
offset_delta = 36
locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
stack = [ class java/io/PrintStream ]
frame_type = 255 /* full_frame */
offset_delta = 0
locals = [ class "[Ljava/lang/String;", class java/lang/String, class java/lang/String ]
stack = [ class java/io/PrintStream, int ]
}
SourceFile: "StringDemo01.java"
String拼接,有字符串变量参与时,中间会产生StringBuilder对象(JDK1.5之前产生StringBuffer)
参考:
【1】:String源码分析
【2】:【Java源码分析】Java8的String源码分析
【3】:Java String API
【4】:Java 源码学习系列1——String
【5】:JDK1.8源码(三)——java.lang.String 类
【6】:Java中的String为什么要设计成不可变的?
【7】:String”+”拼接底层实现原理