mahout处理路透社语料步骤，转换成须要的格式

mahout处理路透社语料步骤，转换成须要的格式
首先下载路透社语料（百度就能够下载）：

然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters

tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz

接下来转换语料格式。要求步骤是：

.sgm文件 ===> .txt文件 ===> sequence文件 ===> vector 文件

结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

一个新闻一个文档的形式把格式转换为.txt文件。
```
<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info 处理路透社语料编程.txt格式
 */
package unitEight;

import java.io.File;

import org.apache.lucene.benchmark.utils.ExtractReuters;

public class TestExtractReuters {
	public static void main(String[] args) {
	    // TODO Auto-generated method stub
	    File inputFolder = new File("G:\reuter"); 
	    File outputFolder = new File("G:\reuters-Text");
	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
	    extractor.extract();
		}
}</span></strong>
```
数据比較多，我就截了一部分：

接着输入：

mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles

然后能够查看到hdfs上出现了例如以下文件夹：

接着输入：

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow

最后能够下载下来查看。
相关阅读:
Python抽象及异常处理
 Python函数练习
 Python字典练习
 Python字符串练习
 Python列表、元组练习
 树莓派搭建网站
 嵌入式特点、组成
 创建队列出队入队显示队列（链式）
面试题--1 输入时间要求输出下一秒
 图像傅里叶变换的意义
原文地址：https://www.cnblogs.com/liguangsunls/p/7122057.html