1. Set接口
- Set不允许包含相同的元素,如果试图把两个相同元素加入同一个集合中,add方法返回false。
- Set判断两个对象相同不是使用==运算符,而是根据equals方法。也就是说,只要两个对象用equals方法比较返回true,Set就不会接受这两个对象。
2. HashSet
HashSet有以下特点:
- 不能保证元素的排列顺序,顺序有可能发生变化
- 不是同步的,集合元素可以是null
当向HashSet集合中存入一个元素时,HashSet会调用该对象的hashCode()方法来得到该对象的hashCode值,然后根据hashCode值来决定该对象在HashSet中存储位置。简单的说,HashSet集合判断两个元素相等的标准是两个对象通过equals方法比较相等,并且两个对象的hashCode()方法返回值相等。
注意,如果要把一个对象放入HashSet中,重写该对象对应类的equals方法,也应该重写其hashCode()方法。其规则是如果两个对象通过equals方法比较返回true时,其hashCode也应该相同。
3. LinkedHashSet
- LinkedHashSet与HashSet的不同之处在于,LinkedHashSet维护着一个运行于所有条目的双重链接列表。此链接列表定义了迭代顺序,该迭代顺序可为插入顺序或是访问顺序。
- LinkedHashSet集合同样是根据元素的hashCode值来决定元素的存储位置。
4. TreeSet
- TreeSet是SortedSet接口的唯一实现类,TreeSet可以确保集合元素处于排序状态。
- TreeSet支持两种排序方式,自然排序和定制排序,其中自然排序为默认的排序方式。向TreeSet中加入的应该是同一个类的对象。
- TreeSet判断两个对象不相等的方式是两个对象通过equals方法返回false,或者通过CompareTo方法比较没有返回0
自然排序根据排序元素的CompareTo(Object obj)方法来比较元素之间大小关系,然后将元素按照升序排列。
Java提供了一个Comparable接口,该接口里定义了一个compareTo(Object obj)方法,该方法返回一个整数值,实现了该接口的对象就可以比较大小。
obj1.compareTo(obj2)方法如果返回0,则说明被比较的两个对象相等,如果返回一个正数,则表明obj1大于obj2,如果是负数,则表明obj1小于obj2。
如果我们将两个对象的equals方法总是返回true,则这两个对象的compareTo方法返回应该返回0。如果要定制排序,应该使用Comparator接口,实现int compare(To1,To2)方法
5. 性能分析
-
HashSet用的哈希表,开一个大数组,用哈希值映射到下标上,会有冲突,只有装填因子小的时候性能才好;
-
HashSet要留额外空间,占内存大,数据频繁插入的时候可能会不断触发Array Copy,但是读写性能一般很快;
-
TreeSet底层用红黑树实现,读写性能差一些,但不存在Array Copy问题,并且不占用额外的不存储数据的空间;
-
一般来说空间换时间或者时间换空间。HashSet的查找代价为O(1),TreeSet为O(logn);
-
TreeSet的设计本身不是为了空间时间的问题,而是为了有序。因此它的插入及查找操作的代价都大于HashSet;
-
HashSet性能要好于TreeSet(特别是最常用的添加、查询元素等操作),因为TreeSet需要额外的红黑树算法维护集合元素的次序。
-
LinkedHashSet对于普通的插入,删除操作比HashSet要略微慢一点,这是由维护链表所带来的额外开销造成的,但由于有了链表,遍历LinkedHashSet会更快;
-
EnumSet是所有Set实现类中性能最好的,但它只能保存同一个枚举类的枚举值作为集合元素;
6. 线程安全
注意:Set的三个实现类HashSet、TreeSet和EnumSet都是线程不安全的。
如果有多个线程同事访问一个Set集合,并且有超过一个线程修改了该Set集合,则必须手动保证该Set集合的同步。
- 解决:通常通过Collections工具类的synchronizedSortedSet方法来“包装”该Set集合。
- 注意:此操作最好在创建时进行,以防止对Set集合的意外非同步访问。
- 示例:
SortedSet set = Collections.synchronizedSortedSet(new TreeSet());
Collections 工具类其他同步方法:
synchronizedCollection(Collection<T> c)
这个方法返回一个同步的(线程安全的)集合的指定集合的支持。synchronizedList(List<T>list)
这个方法返回由指定列表支持的同步(线程安全的)列表。synchronizedMap(Map<K,V> m)
这个方法返回一个同步的(线程安全)由指定映射支持。synchronizedSet(Set<T> s)
这个方法返回一个同步的(线程安全的)集由指定set支持。synchronizedSortedMap(SortedMap<K,V> m)
这个方法返回一个同步的(线程安全的)有序映射所指定的有序映射支持synchronizedSortedSet(SortedSet<T> s)
这个方法返回一个同步的(线程安全的)有序set由指定的有序set支持。synchronizedNavigableMap(NavigableMap<K,V> m)
(JDK1.8)synchronizedNavigableSet(NavigableSet<T> s)
(JDK1.8)
7. 快速失败
什么是集合迭代器快速失败行为?以ArrayList为例,在多线程并发情况下,如果有一个线程在修改ArrayList集合的结构(插入、移除...),而另一个线程正在用迭代器遍历读取集合中的元素,此时将抛出ConcurrentModificationException异常立即停止迭代遍历操作,而不需要等到遍历结束后再检查有没有出现问题;
- Collection类返回一个Iterator之后,其实会创建一个指向原来对象的单链索引表,当原来的对象数量发生变化的时候,这个单链索引表的内容不会同步改变,所以当索引指针往后移动的时候,找不到要找的对象,就会按照fail-fast原则(快速失败原则),Iterator马上跑出java.util.ConcurrentModificationException异常。换一个说法,也就是,在Iterator工作的时候,是不允许被迭代的对象改变的。
- 避免抛出这个异常的方法是:不使用Collection自身的remove()方法,而使用Iterator本身的方法remove()来删除对象,因为这样子可以删掉原对象,同时当前迭代对象的索引也得到同步。