1.Java线程的状态
一. 线程状态类型:1. 新建状态(New):新创建了一个线程对象。2. 就绪状态(Runnable):线程对象创建后,其他线程调用了该对象的start()方法。该状态的线程位于可运行线程池中,变得可运行,等待获取CPU的使用权。3. 运行状态(Running):就绪状态的线程获取了CPU,执行程序代码。4. 阻塞状态(Blocked):阻塞状态是线程因为某种原因放弃CPU使用权,暂时停止运行。直到线程进入就绪状态,才有机会转到运行状态。阻塞的情况分三种:(一)、等待阻塞:运行的线程执行wait()方法,JVM会把该线程放入等待池中。(二)、同步阻塞:运行的线程在获取对象的同步锁时,若该同步锁被别的线程占用,则JVM会把该线程放入锁池中。(三)、其他阻塞:运行的线程执行sleep()或join()方法,或者发出了I/O请求时,JVM会把该线程置为阻塞状态。当sleep()状态超时、join()等待线程终止或者超时、或者I/O处理完毕时,线程重新转入就绪状态。5. 死亡状态(Dead):线程执行完了或者因异常退出了run()方法,该线程结束生命周期。二. 线程状态图
2.进程和线程的区别,进程间如何通讯,线程间如何通讯
他们之间根本区别在于 多进程中每个进程有自己的地址空间,线程则共享地址空间。
http://blog.csdn.net/ls5718/article/details/51878770
一、进程间的通信方式
- 管道( pipe ):
管道是一种半双工的通信方式,数据只能单向流动,而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系。- 有名管道 (namedpipe) :
有名管道也是半双工的通信方式,但是它允许无亲缘关系进程间的通信。- 信号量(semophore ) :
信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它常作为一种锁机制,防止某进程正在访问共享资源时,其他进程也访问该资源。因此,主要作为进程间以及同一进程内不同线程之间的同步手段。- 消息队列( messagequeue ) :
消息队列是由消息的链表,存放在内核中并由消息队列标识符标识。消息队列克服了信号传递信息少、管道只能承载无格式字节流以及缓冲区大小受限等缺点。- 信号 (sinal ) :
信号是一种比较复杂的通信方式,用于通知接收进程某个事件已经发生。- 共享内存(shared memory ) :
共享内存就是映射一段能被其他进程所访问的内存,这段共享内存由一个进程创建,但多个进程都可以访问。共享内存是最快的 IPC 方式,它是针对其他进程间通信方式运行效率低而专门设计的。它往往与其他通信机制,如信号两,配合使用,来实现进程间的同步和通信。- 套接字(socket ) :
套接口也是一种进程间通信机制,与其他通信机制不同的是,它可用于不同设备及其间的进程通信。二、线程间的通信方式
- 锁机制:包括互斥锁、条件变量、读写锁
- 互斥锁提供了以排他方式防止数据结构被并发修改的方法。
- 读写锁允许多个线程同时读共享数据,而对写操作是互斥的。
- 条件变量可以以原子的方式阻塞进程,直到某个特定条件为真为止。对条件的测试是在互斥锁的保护下进行的。条件变量始终与互斥锁一起使用。
- 信号量机制(Semaphore):包括无名线程信号量和命名线程信号量
信号机制(Signal):类似进程间的信号处理线程间的通信目的主要是用于线程同步,所以线程没有像进程通信中的用于数据交换的通信机制。
3.HashMap的数据结构是什么?如何实现的。和HashTable,ConcurrentHashMap的区别
http://www.cnblogs.com/rogerluo1986/p/5851300.html
ConcurrentHashMap线程同步,hashMap 线程不同步,hashTable不许使用null
hashMap使用数组加链表的存储方式来实现
http://www.cnblogs.com/infinityu/articles/3188266.html
4.Cookie和Session的区别
cookie 和session 的区别:
1、cookie数据存放在客户的浏览器上,session数据放在服务器上。
2、cookie不是很安全,别人可以分析存放在本地的COOKIE并进行COOKIE欺骗 考虑到安全应当使用session。
3、session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能 考虑到减轻服务器性能方面,应当使用COOKIE。
4、单个cookie保存的数据不能超过4K,很多浏览器都限制一个站点最多保存20个cookie。
5、所以个人建议: 将登陆信息等重要信息存放为SESSION 其他信息如果需要保留,可以放在COOKIE中
5.索引有什么用?如何建索引?
SQL 创建索引的作用以及如何创建索引
SQL 创建索引的作用
一、使用索引的优点:
1、通过唯一性索引(unique)可确保数据的唯一性 2、加快数据的检索速度 3、加快表之间的连接 4、减少分组和排序时间
5、使用优化隐藏器提高系统性能
二、使用索引的原则:
1、在需要经常搜索的列上创建索引 2、主键上创建索引
3、经常用于连接的列上创建索引
4、经常需要根据范围进行搜索的列上创建索引 5、经常需要排序的列上创建索引
6、经常用于where子句的列上创建索引
三、不创建索引的原则:
1、查询很少使用和参考的列不建索引 2、对只有少数值的列不建索引
3、定义为text、image、bit的列不建索引
4、当需要update性能远远高于select性能时不应建索引
四、常用的命令:
1、sp_helpindex :报告表或视图上的索引信息
2、dbcc showcontig :显示指定表的数据和索引的碎片信息 3、dbcc dbreindex :重建指定数据库中一个或多个索引
4、dbcc indexdefrag :整理指定表或视图的聚集索引或辅助索引的碎片
五、优化索引:
1、重建索引(dbcc dbreindex) 2、索引优化向导
3、整理指定的表或视图的聚集索引和辅助索引碎片(dbcc indexefrag)
如何创建索引
CREATE INDEX 语句用于在表中创建索引。
在不读取整个表的情况下,索引使数据库应用程序可以更快地查找数据。 索引
您可以在表中创建索引,以便更加快速高效地查询数据。
6.ArrayList是如何实现的,ArrayList和LinedList的区别?ArrayList如何实现扩容。
新容量=(旧容量*3)/2+1,ArrayList 基于动态数组,LinkedList基于链表。
http://blog.csdn.net/u013673242/article/details/43272005
如果涉及到堆栈,队列等操作,应该考虑用List,对于需要快速插入,删除元素,应该使用LinkedList,如果需要快速随机访问元素,应该使用ArrayList。
尽量返回接口而非实际的类型,如返回List而非ArrayList,这样如果以后需要将ArrayList换成LinkedList时,客户端代码不用改变。这就是针对抽象编程。
7.equals方法实现
http://www.cnblogs.com/yxl10/p/4161528.html
首先看下Java语言规范对equals方法的要求:
1,自反性,对于任何非控引用x,x.equals(x)都应该返回true。
2,对称性,对于任何引用x和y,如果x.equals(y)返回true,那么y.equals(x)也应该返回true。
3,传递性,如果x.equals(y),y.equals(z)都返回true,那么,x.equals(z)返回true。
4,一致性,如果x和y引用的对象没有发生变化,那么无论调用多少次x.equals(y)都返回相同的结果。
5,对于任意非空引用x,x.equals(null)都应该返回false。
Object类中的equals方法用于检测两个对象是否相等,而相等判断的标准则是二者是否引用同一个对象。
下面给出编写一个完美的equals方法的原则:
1,将equals的Object类显式参数命名为otherObject。
2,检测otherObject是否与this引用自同一个对象。
3,检测otherObject是否为null,是的话返回false。
4,检测this与otherObject是否属于同一个类,这里需要注意的情况就是当比较的两个对象不属于同一个类时,比如p.equals(e),p是一个Person,e是一个Employee, Employee继承自Person。Person拥有name,age私有域,Employee具有occupation域。
如果相等的概念是的对象的所有域都必须相等,p.equals(e)中使用e instalceof Person返回true,但是如果e.equals(p)调用,p instanceof Employee则返回false,不满足对称性要求,所以这里需要强制采用getClass()来进行类型检测。
如果相等的概念是由超类决定的,比如认为只要name和age相同,则Person和Employee相等,则可以使用instance进行检测,同时在超类中将该方法定义为final。
5,将otherObject转换为this类型的变量。
6,现在开始进行私有数据域的比较,对于基本类型如数值,字符和布尔类型使用==进行比较,对对象域使用equals进行比较,所有域都相同则返回true。
7,使用@Override声明有助于错误检查。
8.面向对象
9.线程状态,BLOCKED和WAITING有什么区别
BLOCKED是指线程正在等待获取锁。
总结: BLOCKED 和WAITING 都是非活动线程的状态. WAITING 线程是已经分配到了CPU时间,但是需要等待事件发生所以主动释放了CPU,直到某些事件完成后调用了notify()唤醒, 也就是WAITTING线程是自己现在不想要CPU时间,但是BLOCKED线程是想要的,但是BLOCKED线程没有获得锁,所以轮不到BLOCKED线程。
10.JVM如何加载字节码文件
11.JVM GC,GC算法。
12.什么情况会出现Full GC,什么情况会出现yong GC。
13.JVM内存模型
http://blog.csdn.net/u012152619/article/details/46968883#t0
14.Java运行时数据区
15.事务的实现原理
http://www.cnblogs.com/roucheng/p/javashiwu.html
事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性(atomicity)、一致性(consistency)、隔离性 (isolation)和持久性(durability)的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示 当事务执行失败时,所有被该事务影响的数据都应该恢复到事务执行前的状态。隔离性表示在事务执行过程中对数据的修改,在事务提交之前对其他事务不可见。持 久性表示已提交的数据在事务执行失败时,数据的状态都应该正确。技术深度
1.有没有看过JDK源码,看过的类实现原理是什么。
2.HTTP协议
http://www.cnblogs.com/li0803/archive/2008/11/03/1324746.html
3.TCP协议
http://network.51cto.com/art/201411/456783.htm
TCP(Transmission Control Protocol 传输控制协议)是一种面向连接(连接导向)的、可靠的、 基于IP的传输层协议
4.一致性Hash算法
5.JVM如何加载字节码文件
http://blog.csdn.net/likika2012/article/details/45575285
当我们使用命令来执行某一个Java程序(比如Test.class)的时候:java Test
(1) java.exe 会帮助我们找到 JRE ,接着找到位于 JRE 内部的 jvm.dll ,这才是真正的 Java 虚拟机器 , 最后加载动态库,激活 Java 虚拟机器。
(2) 虚拟机器激活以后,会先做一些初始化的动作,比如说读取系统参数等。一旦初始化动作完成之后,就会产生第一个类装载器 ―― Bootstrap Loader(启动类装载器 ) 。
(3) Bootstrap Loader 所做的初始工作中,除了一些基本的初始化动作之外,最重要的就是加载 Launcher.java 之中的 ExtClassLoader(扩展类装载器) ,并设定其 Parent 为 null ,代表其父加载器为 BootstrapLoader 。
(4) 然后 Bootstrap Loader 再要求加载 Launcher.java 之中的 AppClassLoader(用户自定义类装载器 ) ,并设定其 Parent 为之前产生的 ExtClassLoader 实体。这两个加载器都是以静态类的形式存在的。
6.类加载器如何卸载字节码
http://www.cnblogs.com/macgradyjames/p/7404054.html
由Java虚拟机自带的类加载器所加载的类,在虚拟机的生命周期中,始终不会被卸载。
前面介绍过,Java虚拟机自带的类加载器包括根类加载器、扩展类加载器和系统类加载器。
Java虚拟机本身会始终引用这些类加载器,而这些类加载器则会始终引用它们所加载的类的Class对象,因此这些Class对象始终是可触及的。
由用户自定义的类加载器加载的类是可以被卸载的。
7.IO和NIO的区别,NIO优点
8.Java线程池的实现原理,keepAliveTime等参数的作用。
http://www.cnblogs.com/dolphin0520/p/3932921.html
我们使用线程的时候就去创建一个线程,这样实现起来非常简便,但是就会有一个问题:
如果并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束了,这样频繁创建线程就会大大降低系统的效率,因为频繁创建线程和销毁线程需要时间。
那么有没有一种办法使得线程可以复用,就是执行完一个任务,并不被销毁,而是可以继续执行其他的任务?
在Java中可以通过线程池来达到这样的效果。今天我们就来详细讲解一下Java的线程池,首先我们从最核心的ThreadPoolExecutor类中的方法讲起,然后再讲述它的实现原理,接着给出了它的使用示例,最后讨论了一下如何合理配置线程池的大小。
9.HTTP连接池实现原理
http://blog.csdn.net/catoop/article/details/50352334
10.数据库连接池实现原理
http://www.cnblogs.com/wym789/p/6374440.html
11.数据库的实现原理
http://blog.jobbole.com/100349/
技术框架-
看过哪些开源框架的源码
-
为什么要用Redis,Redis有哪些优缺点?Redis如何实现扩容?
-
Netty是如何使用线程池的,为什么这么使用
-
为什么要使用Spring,Spring的优缺点有哪些
-
Spring的IOC容器初始化流程
-
Spring的IOC容器实现原理,为什么可以通过byName和ByType找到Bean
-
Spring AOP实现原理
-
消息中间件是如何实现的,技术难点有哪些
-
如何搭建一个高可用系统
-
哪些设计模式可以增加系统的可扩展性
-
介绍设计模式,如模板模式,命令模式,策略模式,适配器模式、桥接模式、装饰模式,观察者模式,状态模式,访问者模式。
-
抽象能力,怎么提高研发效率。
-
什么是高内聚低耦合,请举例子如何实现
-
什么情况用接口,什么情况用消息
-
如果AB两个系统互相依赖,如何解除依赖
-
如何写一篇设计文档,目录是什么
-
什么场景应该拆分系统,什么场景应该合并系统
-
系统和模块的区别,分别在什么场景下使用
-
分布式事务,两阶段提交。
-
如何实现分布式锁
-
如何实现分布式Session
-
如何保证消息的一致性
-
负载均衡
-
正向代理(客户端代理)和反向代理(服务器端代理)
-
CDN实现原理
-
怎么提升系统的QPS和吞吐量
-
有没有处理过线上问题?出现内存泄露,CPU利用率标高,应用无响应时如何处理的。
-
开发中有没有遇到什么技术问题?如何解决的
-
如果有几十亿的白名单,每天白天需要高并发查询,晚上需要更新一次,如何设计这个功能。
-
新浪微博是如何实现把微博推给订阅者
-
Google是如何在一秒内把搜索结果返回给用户的。
-
12306网站的订票系统如何实现,如何保证不会票不被超卖。
-
如何实现一个秒杀系统,保证只有几位用户能买到某件商品。
-
如何学习一项新技术,比如如何学习Java的,重点学习什么
-
有关注哪些新的技术
-
工作任务非常多非常杂时如何处理
-
项目出现延迟如何处理
-
和同事的设计思路不一样怎么处理
-
如何保证开发质量
-
职业规划是什么?短期,长期目标是什么
-
团队的规划是什么
-
能介绍下从工作到现在自己的成长在那里
-
某互联网公司笔试题
-
spring 事务的属性有哪些?事务的隔离级别有那几种?什么场景需要使用这几种事务。
其中spring七个事物传播属性:
PROPAGATION_REQUIRED -- 支持当前事务,如果当前没有事务,就新建一个事务。这是最常见的选择。
PROPAGATION_SUPPORTS -- 支持当前事务,如果当前没有事务,就以非事务方式执行。
PROPAGATION_MANDATORY -- 支持当前事务,如果当前没有事务,就抛出异常。
PROPAGATION_REQUIRES_NEW -- 新建事务,如果当前存在事务,把当前事务挂起。
PROPAGATION_NOT_SUPPORTED -- 以非事务方式执行操作,如果当前存在事务,就把当前事务挂起。
PROPAGATION_NEVER -- 以非事务方式执行,如果当前存在事务,则抛出异常。
PROPAGATION_NESTED -- 如果当前存在事务,则在嵌套事务内执行。如果当前没有事务,
则进行与PROPAGATION_REQUIRED类似的操作。
五个隔离级别:
ISOLATION_DEFAULT 这是一个PlatfromTransactionManager默认的隔离级别,使用数据库默认的事务隔离级别.
另外四个与JDBC的隔离级别相对应;
ISOLATION_READ_UNCOMMITTED 这是事务最低的隔离级别,它充许别外一个事务可以看到这个事务未提交的数据。
这种隔离级别会产生脏读,不可重复读和幻像读。ISOLATION_READ_COMMITTED 保证一个事务修改的数据提交后才能被另外一个事务读取。另外一个事务不能读取
该事务未提交的数据。这种事务隔离级别可以避免脏读出现,但是可能会出现不可重复读和幻像读。ISOLATION_REPEATABLE_READ 这种事务隔离级别可以防止脏读,不可重复读。但是可能出现幻像读。它除了保证
一个事务不能读取另一个事务未提交的数据外,还保证了避免下面的情况产生(不可重复读)。ISOLATION_SERIALIZABLE 这是花费最高代价但是最可靠的事务隔离级别。事务被处理为顺序执行。除了防止脏读,
不可重复读外,还避免了幻像读。 -
乐观锁和悲观锁的优缺点,举例说明?
悲观锁(Pessimistic Lock), 顾名思义,就是很悲观,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会block直到它拿到锁。传统的关系型数据库里边就用到了很多这种锁机制,比如行锁,表锁等,读锁,写锁等,都是在做操作之前先上锁。
乐观锁(Optimistic Lock), 顾名思义,就是很乐观,每次去拿数据的时候都认为别人不会修改,所以不会上锁,但是在更新的时候会判断一下在此期间别人有没有去更新这个数据,可以使用版本号等机制。乐观锁适用于多读的应用类型,这样可以提高吞吐量,像数据库如果提供类似于write_condition机制的其实都是提供的乐观锁。
两种锁各有优缺点,不可认为一种好于另一种,像乐观锁适用于写比较少的情况下,即冲突真的很少发生的时候,这样可以省去了锁的开销,加大了系统的整个吞吐量。但如果经常产生冲突,上层应用会不断的进行retry,这样反倒是降低了性能,所以这种情况下用悲观锁就比较合适。
-
什么叫幂等,什么叫Base,什么叫cap
http://blog.csdn.net/dellme99/article/details/15340955
CAP: Consistency, Availability, Partition-tolerance
强一致性(Consistency)。系统在执行过某项操作后仍然处于一致的状态。在分布式系统中,更新操作执行成功后所有的用户都应该读取到最新的值,这样的系统被认为具有强一致性。
可用性(Availability)。每一个操作总是能够在一定的时间内返回结果,这里需要注意的是“一定时间内”和“返回结果”。
分区容错性(Partition Tolerance)。分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求(满足一致性和可用性)。这里网络分区是指由于某种原因网络被分成若干个孤立的区域,而区域之间互不相通。还有一些人将分区容错性理解为系统对节点动态加入和离开的处理能力,因为节点的加入和离开可以认为是集群内部的网络分区。
BASE
弱一致性协议
基本可用(Basically Available):系统能够基本运行、一直提供服务。
软状态(Soft-state):系统不要求一直保持强一致状态。
最终一致性(Eventual consistency):系统需要在某一时刻后达到一致性要求
-
annotation泛型的优缺点
-
java 中多线程有几种实现方法,各是什么?同步有几种实现方法,分别是什么?你在开发中使用同步的场景是什么?
-
怎样避免Form表单重复提交
-
什么是XSS攻击?如何防止?
-
http请求的get和post的区别?cookie与session的区别?
GET和POST请求的区别
GET请求
GET /books/?sex=man&name=Professional HTTP/1.1 Host: www.wrox.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1 Connection: Keep-Alive
注意最后一行是空行
POST请求
POST / HTTP/1.1 Host: www.wrox.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1 Content-Type: application/x-www-form-urlencoded Content-Length: 40 Connection: Keep-Alive name=Professional%20Ajax&publisher=Wiley
1、GET提交,请求的数据会附在URL之后(就是把数据放置在HTTP协议头中),以?分割URL和传输数据,多个参数用&连接;例 如:login.action?name=hyddd&password=idontknow&verify=%E4%BD%A0 %E5%A5%BD。如果数据是英文字母/数字,原样发送,如果是空格,转换为+,如果是中文/其他字符,则直接把字符串用BASE64加密,得出如: %E4%BD%A0%E5%A5%BD,其中%XX中的XX为该符号以16进制表示的ASCII。
POST提交:把提交的数据放置在是HTTP包的包体中。上文示例中红色字体标明的就是实际的传输数据
因此,GET提交的数据会在地址栏中显示出来,而POST提交,地址栏不会改变
2、传输数据的大小:首先声明:HTTP协议没有对传输的数据大小进行限制,HTTP协议规范也没有对URL长度进行限制。
而在实际开发中存在的限制主要有:
GET:特定浏览器和服务器对URL长度有限制,例如 IE对URL长度的限制是2083字节(2K+35)。对于其他浏览器,如Netscape、FireFox等,理论上没有长度限制,其限制取决于操作系 统的支持。
因此对于GET提交时,传输数据就会受到URL长度的 限制。
POST:由于不是通过URL传值,理论上数据不受 限。但实际各个WEB服务器会规定对post提交数据大小进行限制,Apache、IIS6都有各自的配置。
3、安全性
POST的安全性要比GET的安全性高。比如:通过GET提交数据,用户名和密码将明文出现在URL上,因为(1)登录页面有可能被浏览器缓存;(2)其他人查看浏览器的历史纪录,那么别人就可以拿到你的账号和密码了,除此之外,使用GET提交数据还可能会造成Cross-site request forgery攻击
4、Http get,post,soap协议都是在http上运行的
(1)get:请求参数是作为一个key/value对的序列(查询字符串)附加到URL上的
查询字符串的长度受到web浏览器和web服务器的限制(如IE最多支持2048个字符),不适合传输大型数据集同时,它很不安全(2)post:请求参数是在http标题的一个不同部分(名为entity body)传输的,这一部分用来传输表单信息,因此必须将Content-type设置为:application/x-www-form- urlencoded。post设计用来支持web窗体上的用户字段,其参数也是作为key/value对传输。
但是:它不支持复杂数据类型,因为post没有定义传输数据结构的语义和规则。(3)soap:是http post的一个专用版本,遵循一种特殊的xml消息格式
Content-type设置为: text/xml 任何数据都可以xml化。Http协议定义了很多与服务器交互的方法,最基本的有4种,分别是GET,POST,PUT,DELETE. 一个URL地址用于描述一个网络上的资源,而HTTP中的GET, POST, PUT, DELETE就对应着对这个资源的查,改,增,删4个操作。 我们最常见的就是GET和POST了。GET一般用于获取/查询资源信息,而POST一般用于更新资源信息.
我们看看GET和POST的区别
GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的数据放在HTTP包的Body中.
GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制.
GET方式需要使用Request.QueryString来取得变量的值,而POST方式通过Request.Form来获取变量的值。
GET方式提交数据,会带来安全问题,比如一个登录页面,通过GET方式提交数据时,用户名和密码将出现在URL上,如果页面可以被缓存或者其他人可以访问这台机器,就可以从历史记录获得该用户的账号和密码.
-
什么叫session粘连?什么场景需要session粘连?为什么?
-
尽可能多的列出你使用过的linux常用命令,并简要说明其功能。
-
编程题:第一个人10,第二个比第一个大2岁,依次递推,请用递归的方式算出第82个人多大?(请用最优化算法实现)
-
在项目中用到过的性能调优的方法有哪些,请举例说明
http://www.csdn.net/article/2012-06-21/2806814
-
算法题:海量日志数据,提取出一周内访问次数最多的IP,请设计最优化算法,并推导出算法的复杂度
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述(雪域之鹰):
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;
3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址;
4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;