• mahout处理路透社语料步骤,转换成须要的格式


    首先下载路透社语料(百度就能够下载):



    然后上传Linux 并解压到指定文件夹。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters


    tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz





    接下来转换语料格式。要求步骤是:


    .sgm文件  ===> .txt文件  ===>  sequence文件  ===> vector 文件


    结合写一个java代码。使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类依照

    一个新闻一个文档的形式 把格式转换为.txt文件。



    <strong><span style="font-size:18px;">/***
     * @author YangXin
     * @info 处理路透社语料编程.txt格式
     */
    package unitEight;
    
    import java.io.File;
    
    import org.apache.lucene.benchmark.utils.ExtractReuters;
    
    public class TestExtractReuters {
    	public static void main(String[] args) {
    	    // TODO Auto-generated method stub
    	    File inputFolder = new File("G:\reuter"); 
    	    File outputFolder = new File("G:\reuters-Text");
    	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
    	    extractor.extract();
    		}
    }</span></strong>
    


    数据比較多,我就截了一部分:



    接着输入:

    mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles


    然后能够查看到hdfs上出现了例如以下文件夹:




    接着输入:

    mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow





    最后能够下载下来查看。



  • 相关阅读:
    Python抽象及异常处理
    Python函数练习
    Python字典练习
    Python字符串练习
    Python列表、元组练习
    树莓派搭建网站
    嵌入式特点、组成
    创建队列 出队 入队 显示队列(链式)
    面试题--1 输入时间要求输出下一秒
    图像傅里叶变换的意义
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/7122057.html
Copyright © 2020-2023  润新知