双十一已经过去了,闲暇时间收集了一些算法试题,分享一下!
1、实现一个函数,对一个正整数n,算得到1需要的最少操作次数。操作规则为:如果n为偶数,将其除以2;如果n为奇数,可以加1或减1;一直处理下去。
例子:
func(7) = 4,可以证明最少需要4次运算
n = 7
n-1 6
n/2 3
n-1 2
n/2 1
要求:实现函数(实现尽可能高效) int func(unsign int n);n为输入,返回最小的运算次数。给出思路(文字描述),完成代码,并分析你算法的时间复杂度。
<?php function func($n) { if($n == 1) return 0; if($n % 2 == 0) return 1 + func($n/2); $x = func($n + 1); $y = func($n - 1); if($x > $y) return $y+1; else return $x+1; } echo func(7); ?>
2、一个大的含有50M个URL的记录,一个小的含有500个URL的记录,找出两个记录里相同的URL。
首先使用包含500个url的文件创建一个hash_set。
然后遍历50M的url记录,如果url在hash_set中,则输出此url并从hash_set中删除这个url。
所有输出的url就是两个记录里相同的url。
3、海量日志数据,提取出某日访问淘宝次数最多的那个IP。
回答: 如果日志文件足够的大,大到不能完全加载到内存中的话。那么可以考虑分而治之的策略。 1)按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。 2)对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。HASH['10.231.250.234']=0 3)有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。
4、有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。如何按照query的频度排序?
回答: 1)读取10个文件,按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。 2)对于1)中获得的10个文件,分别进行如下操作 - 利用hash_map(query,query_count)来统计每个query出现的次数。 - 利用堆排序算法对query按照出现次数进行排序。 - 将排序好的query输出的文件中。 - 这样我们就获得了10个文件,每个文件中都是按频率排序好的query。 3)对2)中获得的10个文件进行归并排序,并将最终结果输出到文件中。
5、蚂蚁爬杆问题
有一根27厘米长的细木杆,在第3厘米,7厘米,11厘米,17厘米,23厘米这五个位置上各有一只蚂蚁,木杆很细,不能同时通过两只蚂蚁,开始时,蚂蚁的头朝向左还是右是任意的,他们只会朝前走或掉头,但不会后退,当两只蚂蚁相遇后,蚂蚁会同时掉头朝反方向走,假设蚂蚁们每秒钟可以走1厘米的距离。求所有蚂蚁都离开木杆的最小时间和最大时间。
答案: 两只蚂蚁相遇后,各自掉头朝相反方向走。如果我们不考虑每个蚂蚁的具体身份,这和两只蚂蚁相遇后,打个招呼继续向前走没有什么区别。 所有蚂蚁都离开木杆的最小时间为:max(min(3,27-3),min(7,27-7), min(11,27-11), min(17,27-17),min(23,27-23))=11 所有蚂蚁都离开木杆的最大时间为:max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24
6、当在浏览器中输入一个url后回车,后台发生了什么?比如输入url后,你看到了淘宝的首页,那么这一切是如何发生的呢?
回答: 简单来说有以下步骤: 1、查找域名对应的IP地址。这一步会依次查找浏览器缓存,系统缓存,路由器缓存,ISPDNS缓存,根域名服务器。 2、向IP对应的服务器发送请求。 3、服务器响应请求,发回网页内容。 4、浏览器解析网页内容。 详细内容可以参考:http://www.cnblogs.com/liqiu/archive/2013/05/23/3094728.html
7、判断两棵树是否相等,请实现两棵树是否相等的比较,相等返回1,否则返回其他值,并说明算法复杂度。
数据结构是:
typedef struct TreeNode { char c; TreeNode *leftchild; TreeNode *rightchild; }TreeNode;
函数接口为:int CompTree(TreeNode* tree1,TreeNode* tree2);
注:A、B两棵树相等当且仅当RootA->c==RootB-->c,而且A和B的左右子树相等或者左右互换相等。
递归方法:
bool CompTree(TreeNode *tree1, TreeNode *tree2) { if(tree1 == NULL && tree2 == NULL) return true; if(tree1 == NULL || tree2 == NULL) return false; if(tree1->c != tree2->c) return false; if( (CompTree(tree1->leftchild, tree2->leftchild) && CompTree(tree1->rightchild, tree2->rightchild)) || CompTree(tree1->leftchild, tree2->rightchild) && CompTree(tree1->rightchild, tree2->leftchild)) return true; }
时间复杂度:
在树的第0层,有1个节点,我们会进行1次函数调用;
在树的第1层,有2个节点,我们可能会进行4次函数调用;
在树的第2层,有4个节点,我们可能会进行16次函数调用;
....
在树的第x层,有2^x个节点,我们可能会进行(2^x)^2次函数调用;
所以假设总节点数为n,则算法的复杂度为O(n^2)。
8、求一个论坛的在线人数,假设有一个论坛,其注册ID有两亿个,每个ID从登陆到退出会向一个日志文件中记下登陆时间和退出时间,要求写一个算法统计一天中论坛的用户在线分布,取样粒度为秒。
回答: 一天总共有3600*24=86400秒。 每秒中的人数变化情况: 定义一个长度为86400的整数数组intdelta[86400],每个整数对应这一秒的人数变化值,可能为正也可能为负。 然后依次读入每个用户的登录时间和退出时间,将与登录时间对应的整数值加1,将与退出时间对应的整数值减1。 这样处理一遍后数组中存储了每秒中的人数变化情况。 每秒中论坛的在线人数: 定义另外一个长度为86400的整数数组intonline_num[86400],每个整数对应这一秒的论坛在线人数。与上面的方法类似,区别是在其登陆的时间内每一秒都加一,第二秒也加一类似
if (第一秒登录了一个人)
第一秒: intdelta[1] = 1;
第二秒: intdelta[2] = intdelta[1];
if (第三秒登录了三个人)
第三秒: intdelta[3] = 3 + intdelta[2];
if (第十秒退出了两个人)
第十秒: intdelta[10] = intdelta[9] - 2;
这样就获得了论坛的在线人数