• Node.js躬行记(6)——自制短链系统


      短链顾名思义是一种很短的地址,应用广泛,例如页面中有一张二维码图片,包含的是一个原始地址(如下所示),如果二维码中的链接需要修改,那么就得发代码替换掉。

      但如果二维码图包含的是一条短链,那么只要修改短链中的映射关系,就能不发代码了。当然了,前提是有一套短链系统维护着他们之间的关系,下图是列表和新增的界面。

      

      

      前端界面的代码省略了,直接看短链用Node.js实现的后端代码。

    一、MySQL

      在 web_short_chain 表中,主键 id 是一个自增的整数,short 字段存储着短链中的 key,也就是 http://t.cn/4fYKXF 中的 4fYKXF 之类的数据,并且是全表唯一的,目前还未对其建索引。

    CREATE TABLE `web_short_chain` (
      `id` int(11) NOT NULL AUTO_INCREMENT,
      `short` varchar(10) COLLATE utf8mb4_bin NOT NULL COMMENT '短链地址中的key',
      `url` varchar(200) COLLATE utf8mb4_bin NOT NULL COMMENT '原始地址',
      `ctime` timestamp NULL DEFAULT CURRENT_TIMESTAMP,
      `mtime` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
      `status` tinyint(4) NOT NULL DEFAULT '1' COMMENT '状态',
      PRIMARY KEY (`id`),
      UNIQUE KEY `short_UNIQUE` (`short`)
    ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin COMMENT='短链存储'

    二、计算 short 的值

      需要两步才能将原始地址映射成短链地址,第一步是使用 MurmurHash(么么哈希)算法,由Austin Appleby在2008年发明,可将原始地址转换成一个哈希值,算法如下(最新版本 MurmurHash3)。

    function MurmurHashV3(key, seed) {
      if (typeof key === "string") key = createBuffer(key);
      var remainder, bytes, h1, h1b, c1, c1b, c2, c2b, k1, i;
      remainder = key.length & 3; // key.length % 4
      bytes = key.length - remainder;
      h1 = seed;
      c1 = 0xcc9e2d51;
      c2 = 0x1b873593;
      i = 0;
      while (i < bytes) {
        k1 =
          (key[i] & 0xff) |
          ((key[++i] & 0xff) << 8) |
          ((key[++i] & 0xff) << 16) |
          ((key[++i] & 0xff) << 24);
        ++i;
        k1 = ((k1 & 0xffff) * c1 + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
        k1 = (k1 << 15) | (k1 >>> 17);
        k1 = ((k1 & 0xffff) * c2 + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
        h1 ^= k1;
        h1 = (h1 << 13) | (h1 >>> 19);
        h1b = ((h1 & 0xffff) * 5 + ((((h1 >>> 16) * 5) & 0xffff) << 16)) & 0xffffffff;
        h1 = (h1b & 0xffff) + 0x6b64 + ((((h1b >>> 16) + 0xe654) & 0xffff) << 16);
      }
      k1 = 0;
      switch (remainder) {
        case 3:
          k1 ^= (key[i + 2] & 0xff) << 16;
        case 2:
          k1 ^= (key[i + 1] & 0xff) << 8;
        case 1:
          k1 ^= key[i] & 0xff;
          k1 = ((k1 & 0xffff) * c1 + ((((k1 >>> 16) * c1) & 0xffff) << 16)) & 0xffffffff;
          k1 = (k1 << 15) | (k1 >>> 17);
          k1 = ((k1 & 0xffff) * c2 + ((((k1 >>> 16) * c2) & 0xffff) << 16)) & 0xffffffff;
          h1 ^= k1;
      }
      h1 ^= key.length;
      h1 ^= h1 >>> 16;
      h1 = ((h1 & 0xffff) * 0x85ebca6b + ((((h1 >>> 16) * 0x85ebca6b) & 0xffff) << 16)) & 0xffffffff;
      h1 ^= h1 >>> 13;
      h1 = ((h1 & 0xffff) * 0xc2b2ae35 + ((((h1 >>> 16) * 0xc2b2ae35) & 0xffff) << 16)) & 0xffffffff;
      h1 ^= h1 >>> 16;
      return h1 >>> 0;
    }

      在得到一个整型的哈希值后,就得转换成字符,像上面短链中的字符是 6 个,也就是将10进制转换成62进制,如下所示。

    function string10to62(n) {
      if (n === 0) {
        return "0";
      }
      var digits = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
      var result = "";
      while (n > 0) {
        result = digits[n % digits.length] + result;
        n = parseInt(n / digits.length, 10);
      }
      return result;
    }

    三、缓存

      在将映射关系存入数据库时,可将其直接存入 redis 缓存中,采用哈希的数据结构,也就是将计算出的 short 作为 key,原始地址作为 value。

      假设每条关系所占空间是50字节,那么2000W条记录大概占用 1G左右,为了节省空间,缓存的超时时间会设为 7 天。

      每次在访问短链时,首先从缓存中读取,若有,就直接跳转;若无,则查询数据库,再将映射关系存入缓存中。

    //读取redis
    let url = await services.common.redisShortChainGet(short);
    ctx.status = 302;     //临时跳转
    if(url) {
      ctx.redirect(getCompleteUrl(url, querystring));
      return;
    }
    //缓存中不存在,则读取数据库
    const data = await services.common.getOneShortChain({ short });
    if(!data) {
      ctx.body = "短链不存在";
      return;
    }
    //将数据库中读取的短链缓存起来
    await services.common.redisShortChainSet(short, data.url);
    ctx.redirect(getCompleteUrl(data.url, querystring));

      网上的一些文章在判断短链是否存在时,会采用布隆过滤器

      它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,长度是 10 亿的布隆过滤器,也只需要 125MB左右的内存空间。

      布隆过滤器的缺点是有一定的误识别率和删除困难,例如下图中的 A 和 E 是存在于布隆过滤器中的,它们的映射位置都设成了 1,而 B 并不存在,但它的映射指向了两个是 1 的位置,从而就造成了误识别。

      

  • 相关阅读:
    选择排序
    【洛谷8341】[AHOI2022] 回忆(贪心)
    swagger在高版本springboot中的使用
    springboot中关于连接池的几种方式
    MySQL 的 delete、truncate、drop 有什么区别?
    Docker容器命令
    IDEA 神级插件!效率提升 20 倍!
    Bean Searcher——多条件查询神器
    8 种最坑SQL语法,工作中踩过吗?
    消息中间件:rocketmq单机安装部署
  • 原文地址:https://www.cnblogs.com/strick/p/14299313.html
Copyright © 2020-2023  润新知