• Python: 序列list:保持元素顺序同时消除重复值


    问题:怎样在Python的一个序列上面保持元素顺序的同时消除重复的值?
    answer:如果序列上的值都是hashable 类型,那么可以很简单的利用集合或者生成器来解决这个问题。
      eg1:  

        def dedupe(items):
          seen = set()
          for item in items:
            if item not in seen:
              yield item
              seen.add(item)
        下面是使用上述函数的例子:
        >>> a = [1, 5, 2, 1, 9, 1, 5, 10]
        >>> list(dedupe(a))
        [1, 5, 2, 9, 10]


      eg2:
        这个方法仅仅在序列中元素为hashable 的时候才管用。

        如果你想消除元素不可哈希(比如dict 类型) 的序列中重复元素的话,你需要将上述代码稍微改变一下,就像这样:
        def dedupe(items, key=None):
          seen = set()
          for item in items:
            val = item if key is None else key(item)
            if val not in seen:
            yield item
            seen.add(val)
        这里的key 参数指定了一个函数,将序列元素转换成hashable 类型。下面是它的
        用法示例:
        >>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
        >>> list(dedupe(a, key=lambda d: (d['x'],d['y'])))
        [{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
        >>> list(dedupe(a, key=lambda d: d['x']))
        [{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

        如果你想基于单个字段、属性或者某个更大的数据结构来消除重复元素,第二种方案同样可以胜任。

    附:

      hash是什么意思?

      Hash,一般翻译成‘散列’,也有直译成‘哈希’的,把任意长度的输入通过散列算法,变成固定长度的输出。该输出就是散列值。

      这种转换是一种压缩映射,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。

      简单的说是将一种任意长度的消息压缩到某一固定长度的消息摘要的函数。

      HASH主要用于信息安全领域中加密算法,他把一些不同长度的信息转化成杂乱的128位编码里,叫做HASH值。

      也就是说hash就是找到一种数据内容和数据存放地址之间的映射关系

      著名的hash算法,MD5和SHA1是目前应用最广泛的Hash算法,他们都是以MD4为基础设计的

  • 相关阅读:
    程序返回插入数据库成功,但是数据库内却没有数据
    C++ 使用动态二维数组参数
    深入理解.Net中的内存释放,以及有关的注意事项
    用数据集时,错误:未能启用约束。一行或多行中包含违反非空、唯一或外键约束的值
    关于堆和栈
    C#加密方法总汇
    const与readonly
    struts 将上传文件保存到数据库中
    java Annotation注解的运用
    转:获取汉字的拼音(包括一级和二级)
  • 原文地址:https://www.cnblogs.com/baxianhua/p/8117030.html
Copyright © 2020-2023  润新知