• C# 大数据量List<T>去重复方法效率比较


    大数据量List<T>中的数据根据多个属性进行去重有多种方法,在数据量达到10万以上时,各种方法效率有明显的区别,这里只列举两种方式: 这里以类Model为例创建List<Model>

     public class Model
        {
            public string Id { get; set; }
            public string Name { get; set; }
            public int Style { get; set; } 
        }
    1. 创建比较类(实现IEqualityComparer接口),重写Equals方法
    public class ModelComparer : IEqualityComparer<Model>
     {
         public bool Equals(Model x, Model y)
         {
             if (x.Id == y.Id && x.Name == y.Name)       
                 return true;         
             else           
                 return false;           
         }
     
         public int GetHashCode(Model obj)
         {
             return 0;
         }
     }

    使用时直接使用Distinct方法:

    var lstTemp = lstOrigin.Distinct(new ModelComparer());

    但是这种方式去重效率非常慢,20万条数据能达到15-20分钟,如果数据量较大又对效率有要求,那么可以尝试下面一种方法:

    改进办法

    public class CommonEqualityComparer<T, V> : IEqualityComparer<T>
        {
            private Func<T, V> keySelector;
    
            public CommonEqualityComparer(Func<T, V> keySelector)
            {
                this.keySelector = keySelector;
            }
    
            public bool Equals(T x, T y)
            {
                return EqualityComparer<V>.Default.Equals(keySelector(x), keySelector(y));
            }
    
            public int GetHashCode(T obj)
            {
                return EqualityComparer<V>.Default.GetHashCode(keySelector(obj));
            }
        }
    
        public static class DistinctExtensions
        {
            public static IEnumerable<T> Distinct<T, V>(this IEnumerable<T> source, Func<T, V> keySelector)
            {
                return source.Distinct(new CommonEqualityComparer<T, V>(keySelector));
            }
        }

    使用时:

    var lstTemp = lstOrigin.Distinct(p => (p.Id + p.Name)).ToList();

    这种方法能将效率从15~20分钟提高到5秒以内,虽然这种将两个字段字符串相加作为比较参数的比较方法有些局限,但是相比于前一种方式方式可以极大地提高效率。另也测试过在新建List后,在循环添加数据时通过list.Contains()的方法和通过Linq的方法去重效率都比较低,都与第一种方法时间相近,网上相关文章比较多这里就不列举了。

  • 相关阅读:
    Prometheus环境搭建系列(三):监控redis服务器(redis_exporter)
    Java诊断神器:Arthas常用功能
    sql优化练习
    navicat:[Err] 1055
    Prometheus环境搭建系列(二):监控mysql服务器(mysqld_exporter)
    【笔试必备】常见sql笔试题
    将博客搬至CSDN
    springboot假死、连接泄露
    测试字符串
    阿里云初次使用教程
  • 原文地址:https://www.cnblogs.com/netlock/p/15430138.html
Copyright © 2020-2023  润新知