mapreduce (七) 几个实例

http://hi.baidu.com/hzd2712/item/d2465ae65270ab3e4cdcaf55

MapReduce几个典型的例子

       在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中，作者向世界阐述了什么是MapReduce。其中的几个关于MapReduce的例子很简单，但是很有代表性。拿来分享一下。

       分布式Grep：map函数检查输入行，如果匹配给定的模板（类似于正则表达式的匹配），就把该行输出。reduce函数是一个标识函数，仅用来把中间数据输出。

       URL访问频率统计：map函数处理网页请求的日志文件，并输出<URL, 1>的键值对。reduce函数把相同URL访问次数值相加到一起，输出<URL, 总访问数>的键值对。

       逆向Web-Link图：map函数把source网页中每一个链接到target URL的结果输出为<target, source>。reduce函数把所有和给定target相关的source URLs连接起来，并且输出<target, list(source)>。举个例子，搜索引擎中输入关键字，网络爬虫就会根据关键字(target)查找相关的网页并找到所有的链接，这些就是list(source)。

        主机关键词向量：关键词向量归纳一个文档或一系列文档中最重要的词出现的频率，为一组<word, frequency>的键值对。map函数输出每一个输入文档中的<主机名，关键词向量>的键值对（这里的主机名是从文档的URL中抽取出的）。reduce处理给定主机的所有文档的关键词向量，累加所有的关键词向量，抛掉不常见的关键词，输出<主机名，关键词向量>的键值对。这个很常见的用处就是视频网站上关键词排行榜，都可以这样实现。

        倒序索引：map函数解析每一个文档，输出一个序列<word, document ID>键值对。reduce函数所有相同word的键值对，并根据document IDs排序，输出<word, list(document ID)>。输出的键值对集合形成了一个简单的倒序索引。这样可以很容易跟踪关键字在文档库中的位置。

        分布式排序：map函数从每一个记录中抽取出key，并输出<key, record>的键值对。reduce函数原样输出所有的键值对。这个计算依赖于MapReduce中的分割函数（Partitioning Function）。

相关阅读:
思考的容器：结构
思维的结构-结构是思维的组织形式-系统思维
分层抽象复杂认知
NoSQL 简介
什么是数据库ACID?
sqlite3 多线程和锁，优化插入速度及性能优化
Architecture of SQLite
关系模型我的理解
科学理论--抽象
认识的三个层次

原文地址：https://www.cnblogs.com/i80386/p/3593982.html