• mahout的数据文件格式


    原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

    Mahout支持许多格式的文件以便实现各种工作。
    文件格式
    可导入的文件格式
    1.
    文本文件
            (1)满足
    以下格式的文本可以转化为流数据文件导入:
                
    (行号,行文本)
                
    (文件名,文件的全部内容)
                
    (行号,行份的用正则表达式模式)
           
    (2)可以解析为Lucene索引的文本:
                   
    精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
    2.
    ARFF文件
            
    WEKA(来源)项目文本数据格式
           
    可以<Int,Vector>格式生成流文件的数据
    3.
    邮箱文件
              
    满足以下格式的邮件可以转化为流数据文件导入
                
    (邮件ID,电子邮件消息的文本正文)
                
    没有HTML或附件支持
    4.
    CSV文件
            不导入行头和列头

            
    没有“多个值,每列”选项
    5.
    Hadoop的流文件
            
    规范的,没有变化。目前没有使用的元数据。
    6.
    Lucene索引
           
    转换为流文件
                
    精确的索引设计?

    可导出的格式

        hadoop的流文件

        
    文本行,可以使用toString()函数的类型
        
    MatrixWritable ConfusionMatrix
       
    可供MatrixWritable使用的CSV
        
    一个特殊的CSV格式集群
        
    GraphML XML集群

    流文件中存储的内容的格式
    “简化的”
    文本vectors
    文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

    编码的文本载体
    文档以vectors的形式存储然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。

    字典
    每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

    矩阵
    矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。

    集群
    复杂的数据结构被存储在集群。

    FPGrowth集群
    这些都存储在一个自定义的数据结构。

    生命周期

    所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。

  • 相关阅读:
    ubuntu系统上常用的开发工具
    wamp环境下安装pear
    PHP中preg_match_all函数用法使用详解
    晚睡对策
    iphone相关
    090213 阴
    月曜日の予定(10:30までREVIEW  10:00まで完成予定)
    一个通知
    我还没走
    星期5
  • 原文地址:https://www.cnblogs.com/AI001/p/3368881.html
Copyright © 2020-2023  润新知