百度上 对哈希表的介绍已经很详细:
转载:
转载:
http://www.cnblogs.com/thinkleesion/p/4018820.html
HashCode 意义:
总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set。你知道它们的区别吗?前者集合内的元素是有序的,元素可以重复;后者元素无序,但元素不可重复。那么这里就有一个比较严重的问题了:要想保证元素不重复,可两个元素是否重复应该依据什么来判断呢?这就是 Object.equals方法了。但是,如果每增加一个元素就检查一次,那么当元素很多时,后添加到集合中的元素比较的次数就非常多了。也就是说,如果集合中现在已经有1000个元素,那么第1001个元素加入集合时,它就要调用1000次equals方法。这显然会大大降低效率。
于是,Java采用了哈希表的原理。哈希算法也称为散列算法,是将数据依特定算法直接指定到一个地址上。关于哈希算法,这里就不详细介绍。可以这样简单理解,hashCode方法实际上返回的就是对象存储位置的映像。
这样一来,当集合要添加新的元素时,先调用这个元素的hashCode方法,就能定位到它应该放置的存储位置。如果这个位置上没有元素,它就可以直接存储在这个位置上,不用再进行任何比较了;如果这个位置上已经有元素了,就调用它的equals方法与新元素进行比较,相同的话就不存了,不相同就表示发生冲突了,散列表对于冲突有具体的解决办法,但最终还会将新元素保存在适当的位置。这样一来,实际调用equals方法的次数就大大降低了,几乎只需要一两次。
原则:
在编写类的时候,如果覆盖了Object的equals方法,那么必须要覆盖hashCode方法,并且如果两个对象用equals方法比较返回true,那么这两个对象hashCode返回的值也必须是相等的,并且对于同一个对象,equals方法需要比较的属性值没有被修改,那么每次调用hashCode返回的值应该是一致的。
例子:
String.hashCode();
public int hashCode() { int hash = hashCode; if (hash == 0) { if (count == 0) { return 0; } final int end = count + offset; final char[] chars = value; for (int i = offset; i < end; ++i) { hash = 31*hash + chars[i]; } hashCode = hash; } return hash; }
问题:
hashcode 通过什么散列算法实现的。
怎么解释以上的hash算法,为什么要*31,为什么要》》》31 等。
部分参考资料:
https://stackoverflow.com/questions/299304/why-does-javas-hashcode-in-string-use-31-as-a-multiplier
可能是 这个结论:
A nice property of 31 is that the multiplication can be replaced by a shift and a subtraction for better performance: 31 * i == (i << 5) - i. Modern VMs do this sort of optimization automatically.
来自 Joshua Bloch's Effective Java, 有时间 再阅读一下。
接下去,是 哈希表如何解决冲突:
这篇文章的语言 相对来说通俗一点:
http://www.cnblogs.com/novalist/p/6396410.html
然后 看上去正规一点的教程 应该是这个网址:
http://www.360doc.com/content/14/0721/09/16319846_395862328.shtml
反正就 四种方法:
开放寻址法, 再哈希法,链地址法,建立公共溢出区。
具体方法的实现 就不写了,链接里有。
后面再写一下 目前应用广发的几种hash算法实例:
MD5 和 SHA-1 可以说是目前应用最广泛的Hash算法
以及 著名的ELFhash算