前一阶段看到园子里面有不少人写了很多关于web界面的扩展方法,由于工作原因,本人几乎不碰任何关于界面的东西,所以这里写的扩展方法都是纯粹的逻辑方面的扩展,并且集中在了对IEnumerable<T>方面的扩展。
关于IEnumerable<T>方面的扩展,相信大家已经非常熟悉了,在Linq里面用的最多的就是IEnumerable<T>和IQueryable<T>的扩展方法。本文中主要还是对IEnumerable<T>添加一些扩展行为。
1.Zip方法
熟悉函数式编程语言的话,一定知道Zip函数,其作用就是把两个序列(这里的序列就是指IEnumerable<T>的实例)合并成一个序列,并且这个结果序列的元素就是依次取这两个序列中的元素,通过某个函数合并而成的对象,结果序列的长度由短的那个序列决定。
来看一下如何实现这样一个功能:
是不是很意外,上边用这么多话说了zip要干什么,实现代码却只有4句(本文中的所有代码均不考虑参数检查),方法的声明都花了3行,这里不得不感谢c# 2.0就提供的yield语法糖,把原本复杂的实现全部交给编译器了。
在看看这个zip方法用起来如何:
看看运行结果:
但是,现在还是仅仅处理了有限序列,如果是无限序列哪?
首先,写个无限序列:
在uncheck的情况下,这个序列是不可能有终止的。
可能有人会惊呼while(true)这不是死循环嘛,程序会在这里卡死,不要紧张,这里while(true)里面是yield,所以不会有任何问题,除非你想把这个序列全部求解出来。
再来看一下,values是一个从某数据源读取出来的一个有限序列,但是key序列并不知道应该初始化多少个,除非已经知道values的个数,但是在某些情况下,这个也是一个比较奢侈的要求,现在再用之前的zip方法:
看一下结果:
结果与之前一样,这因为zip在处理两个序列的时候,是根据较短的那个序列来决定结果序列的长度的,所有,当一个序列为有限,另一个为无限时,结果就为有限的那个序列的长度。
但是,当两个无限都为无限序列的话哪?
那么结果序列一定也是无限序列,这样对它的遍历就是死循环了,但是,两个无限序列做zip操作本身并不是无意义的。
例如,现在需要一个无限序列,其第n个值等于(1+n)*(2+n),n>=0,好吧,当然可以利用前面的while(true)+yield方式再写一个,不过,本人比较懒惰,直接就用这个:
来打印这个序列看看,不过要注意了,这个是无限序列,直接遍历就是死循环,所以,这里仅仅察看序列的前5个元素:
其结果为:
到这里,可以看出zip不但支持对有限序列的操作,同时也支持对无限序列的操作。
2.MergeJoin方法
关系型数据库的Join有3种主要的Join方式:Nest Loop,Hash和Merge。其中的Merge方式就是这里的Merge Join的原理(wiki的解释)。
同时,根据wiki上面的c#代码,可以很快写出这样一个实现(简易版):
来调用一下看看:
运行结果为:
在这个两个数组中只有3和7是两个数组共有的,这个和直接Join的结果一样,看一下直接Join:
非常简洁,说非常Linq,但是这个Join方式(Linq to Object)实际上用的是Hash方式,那么Hash Join方式和Merge Join方式到底有什么不同哪?
Hash Join方式要求必须全部加载数据,而Merge Join方式只要求两个序列必须已经按照Key做排序。所以,如果数据量上G的话,Hash方式会导致内存不足,而直接失败(当然如果可以去改良),而Merge方式只要求序列排序,内存占用可以忽略不计,这样处理超大量的数据就不会有任何问题了,甚至可以是无限序列。
例如:
在不考虑溢出的情况下,a序列代表一个:(1+n)*(2+n),n>=0的一个无限序列,当然是一个递增的序列,而b序列代表一个10*n,n>=1的一个无限序列,当然也是一个递增的序列,c则是把a和b序列Join起来的一个序列,当然也是无限序列,然后打印出前5个元素:
如果,这里想用Hash Join的方式,那么永远无法等到结果出来。
最后来个复杂点的Join,作为Merge Join的功能展示(a,b都是按照Level递增的序列):
3.LinearGroupBy方法
要说到group by,相信无论是玩Linq的还是玩sql的都熟悉这个,先来看个标准的Linq:
看看结果:
不过,这里提出的LinearGroupBy的目的略有不同,group by是一个无视顺序的按键值分组,而LinearGroupBy是仅仅把相邻的元素group by起来,也就是说,{ 1, 1, 2, 2, 2, 3, 2 }经过LinearGroupBy的结果应该是:
好吧,再来一个简易版的实现:
调用代码则为:
那么这个LinearGroupBy是实现了,但是这个方法与标准的group by相比,除了逻辑不一样,还有什么不同哪?
这个LinearGroupBy的逻辑只需要知道前一个键值和当前元素,所以不需要知道序列的完整内容,换而言之,也就是可以处理无限序列。
不过,如果这个序列本身就已经按照键值排序了哪?
那么,标准group by与LinearGroupBy的结果将是一样的,也就是说,对于一个已经排序的序列,LinearGroupBy拥有更好的性能和更好的无限序列的亲和性:
x是一个这样的序列:{1,2,2,3,3,3,5,6,6,7,7,7,9,…}(换句话说:0个0,1个1,2个2,3个3,0个4,1个5,2个6,3个7,0个8,1个9,…),本身就是一个已经排序的无限序列,看一下前五个group by的结果:
4.总结
前面的3个方法,可以说都是为了无限序列和小内存操作而优化的,所以在需要用流的方式处理某些数据时非常有用。至于例子就暂时不写了,就说说领域吧,超大文件的处理,或者超大数据库表的用IDataReader的方式来处理,或者基于时间的无限序列的处理等方面。