• BWT(Burrows-Wheeler Transformation)的讲解及java实现


    BWT(Burrows-Wheeler Transformation)

    1.什么是BWT

       压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码。

    BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩。

    2.BWT原理

    2.1 BWT编码

       (1)首先,BWT先对需要转换的文本块,进行循环右移,每次循环一位。可以知道长度为n的文本块,循环n次后重复,这样就得到看n个长度为n的字符串。如下图中的“Rotate Right”列。(其中‘#’作为标识符,不在文本块的字符集中,这样保证n个循环移位后的字符串均布相同。并且定义'#'小于字符集中的任意字符)。

    (2)对循环移位后的n个字符串按照字典序排序。如下图中的“Sorted (M)”列。

    (3)记录下“Sorted (M)”列中每个字符串的最后一个字符,组成了“L”列。(其中"F"列是“Sorted (M)”列中每个字符串的前缀)

    这样,原来的字符串“banana#”就转换为了“annb#aa”。在某些情况下,使用L列进行压缩会有更好的效果。“L”列就是编码的结果。

    2.2 BWT解码

    因为进行的是循环移位,且是循环左移注意下面的性质:

          1、L的第一个元素是Text中的最后一个元素
          2、对于M中的每一行(第一行除外)第一个元素都是最后一个元素的下一个元素。
     也就是说,对于文本块而言,同一行中F是L的下一个元素,L是F的前一个元素。
     
    这样,就需要
    (1)通过"F"列中的元素,找到他前面的字符,就是对应的同一行“L”列;
    (2)通过“L”列中的元素,找到他在“F”列中的对应字符位置。但是“L”中有3个字符a,如何对应F中的3个a呢?因为L是F的前一个元素,多个具有相同前缀的字符串排序,去掉共同前缀后相对次序没有变化。所有遇到多个相同的字符,相对位置不变;
    (3)转到(1),直到结束。

          排序后的字符串              BWT变换后的字符串


    先在BWT变换后的字符串中找到美元符号"$",和它同一行的字母是B,我们先写下,$B找到B之后我们在右边一栏里找B,与其对应的是A

    然后记下$BA,

    现在A的在左边是第三次出现的,故在右边一栏里找A,同样是第三次出现的,与之对应的是N,然后记下$BAN,左边的N

    是第二次出现的,故在右边一栏里找N同样是第二次出现的,与之对应的是A

    然后记下$BANA,现在A的在左边是第二次出现的,故在右边,一栏里找A同样是第二次出现的,与之对应的是N,然后记下$BANAN

    左边N的是第一次出现的,故在右边一栏里找N同样是第一次出现的,

    与之对应的是A,然后记下$BANANA,现在的A在左边是第一次出现的,故在右边一栏里找A同样是第一次出现的,与之对应的是"$",结束。

    package cn.genekang.io.test;
    
    import java.util.Arrays;
    
    public class BWTtest {
    
        public static void main(String[] args) {
            String str = "banana";
            System.out.println("输入的字符串是:"+str);
            String enCodeStr = enCode(str);
            System.out.println("编码后的字符串是:"+enCodeStr);
            System.out.println("解码后的字符串是:"+deCode(enCodeStr));
        }
    
        // bwt编码
        public static String enCode(String line) {
            String str = line + "&";
            int len = str.length();
            // 1.轮转
            char[] charArray = str.toCharArray();
            char[][] ch = new char[len][len];
            for (int i = 0; i < len; i++) {
                char[] c_tmp = charArray.clone();
                for (int j = 0; j < len; j++) {
                    ch[i][j] = c_tmp[j];
                    if (j <= len - 2)
                        charArray[j + 1] = c_tmp[j];
    
                }
                charArray[0] = c_tmp[len - 1];
    
            }
            // 2.排序,按照字典顺序
            String[] strings = new String[len];
            for (int i = 0; i < len; i++) {
                StringBuffer chline = new StringBuffer();
                for (char c : ch[i]) {
                    chline.append(c);
                }
                strings[i] = chline.toString();
            }
    
            Arrays.sort(strings);
            // 3.取最后一行
            StringBuffer sBuffer = new StringBuffer();
            for (String s : strings) {
                sBuffer.append(s.substring(len - 1, len));
            }
            return sBuffer.toString();
        }
    
        // bwt解码
        public static String deCode(String str) {
            int len = str.length();
            String[] strArr = new String[len];
            for (int i = 0; i < len; i++) {
                strArr[i] = str.substring(i, i + 1) + ":" + i;
            }
            Arrays.sort(strArr);
            // for(String string : strArr)
            // System.out.println(string);
            StringBuffer sb = new StringBuffer();
            int num = 0;
            int corr = Integer.parseInt(strArr[0].split(":")[1]);
            while (num < len-1) {            
                sb.append(strArr[corr].split(":")[0]);
                corr =Integer.parseInt( strArr[corr].split(":")[1]);
                num++;
            }
            return sb.toString();
    
        }
    
    }
  • 相关阅读:
    【Offer】[5] 【替换空格】
    【Offer】[3-2] 【不修改数组找出重复的数字】
    【Offer】[3-1] 【找出数组中重复的数字】
    【Spring】 IOC Base
    【Java并发】CallBack和Future模式
    【Java并发】并发队列与线程池
    【Java并发】几个常用API
    linux基础_vi和vim快捷键
    python_字典
    python_列表方法
  • 原文地址:https://www.cnblogs.com/6tian/p/4076539.html
Copyright © 2020-2023  润新知