• C#代码搜索器


    WEBUS2.0 In Action - [源代码] - C#代码搜索器

    最近由于工作的需要, 要分析大量C#代码, 在数万个cs文件中搜索特定关键词. 这是一项非常耗时的工作, 用Notepad++要运行接近半个小时. 于是我利用WEBUS2.0 SDK创建了一个代码搜索器程序, 非常方便的完成了这项工作.

    Code Search程序首先会在选定的目录中搜索所有cs文件:

    复制代码
        private void btnOpen_Click(object sender, EventArgs e)
            {
                try
                {
                    if (folderBrowserDialog1.ShowDialog() == System.Windows.Forms.DialogResult.OK)
                    {
                        Task.Factory.StartNew(IndexProc);
                        //...
            }
    复制代码

    然后创建IIndexer, 并在一个线程中为所有找到的文件编制索引:

    复制代码
            void IndexProc()
            {
                var files = Directory.GetFiles(folderBrowserDialog1.SelectedPath, "*.cs", SearchOption.AllDirectories);
                if (files != null && files.Length > 0)
                {
                    //...this.ResetIndex();
                    foreach (var file in files)
                    {
                        Document doc = new Document();
                        doc.Fields.Add(new Field("FileName", file, FieldAttributes.None));
                        doc.Fields.Add(new Field("Code", StringHelper.LoadString(file), FieldAttributes.AnalyseIndex));
                        m_Index.Add(doc);
                        //...
                    }
                }
                //...
            }
    
            void ResetIndex()
            {
                if (m_Index != null)
                {
                    m_Index.Close();
                }
                m_Index = new IndexManager(new CodeAnalyzer());
                m_Index.DumpDocs = 3000;
                m_Index.DumpSize = 10;
                m_Index.MinIndexSize = int.MaxValue;
                m_Index.MaxIndexSize = int.MaxValue;
                m_Index.MergeFactor = int.MaxValue;
                m_Index.New(AppDomain.CurrentDomain.BaseDirectory + @"Index");
                m_Searcher = new IndexSearcher(m_Index);
            }
    复制代码

    通过调节DumpDocs和DumpSize, 可以优化程序的内存占用;

    通过调节Min/MaxIndexSize和MergeFactor, 可以优化程序的IO性能, 目前我设置的MinIndexSize最大意味着自始至终只会生成一个索引片段; MergeFactor最大意味着从不合并索引片段.

    在创建索引的时候, 我们使用的是专门为代码分析设计的IAnalyzer:

    复制代码
        class CodeAnalyzer : IAnalyzer
        {
            //...public ITokenStream GetTokenStream(Webus.Documents.Field field)
            {
                if (field.Name == "Code")
                {
                    return this.GetTokenStream(field.Value.ToString());
                }
                else
                {
                    return null;
                }
            }
        }
    
        class CodeTokenStream : ITokenStream
        {
            HashSet<string> stops = new HashSet<string>(new string[] { 
                "abstract",
                "event",    
                "new",    
                //... 
                "enum",    
                "namespace",    
                "string"
            });
            Queue<Token> m_Buffer = new Queue<Token>();
            public CodeTokenStream(string text)
            {
                MatchCollection mc = Regex.Matches(text, @"w+");
                foreach (Match m in mc)
                {
                    var key = m.Value.ToLower();
                    if (stops.Contains(key) == false)
                    {
                        m_Buffer.Enqueue(new Token(key, m.Index, m.Length));
                    }
                }
            }
            //...
    }
    复制代码

    这个分析器中包含了所有C#的关键词, 由于他们是绝对高频词并且没有搜索的意义, 因此在分析的时候会跳过这些词汇而不做任何处理. 

    在编制索引的时候通过事件将状态更新到UI上面:

    复制代码
            private void frmCodeSearch_Load(object sender, EventArgs e)
            {
                try
                {
                    this.StatusChanged += new StatusChangeEventHandler(frmCodeSearch_StatusChanged);
                    //...
            }
    
            delegate void UpdateUI();
            void frmCodeSearch_StatusChanged(object sender, string status)
            {
                this.Invoke(new UpdateUI(() => { this.txtStatus.Text = status; }));
            }
    复制代码

    这里是跨线程更新UI, 因此需要使用this.Invoke来封送相应操作. 

    索引编制过程中就可以开始搜索了:

    对应代码如下:

    复制代码
            private void txtKeyword_TextChanged(object sender, EventArgs e)
            {
                try
                {
                    TermQuery query = new TermQuery(new Term("Code", txtKeyword.Text.ToLower()));
                    var hits = m_Searcher.Search(query);
                    List<SearchResult> result = new List<SearchResult>();
                    foreach (HitDoc hit in hits)
                    {
                        StandardHighlighter hl = new StandardHighlighter(hit);
                        result.Add(new SearchResult(hit));
                    }
                    dgvResult.DataSource = result;
                }
                catch (Exception ex)
                {
                    MessageBox.Show(ExceptionHelper.ToString(ex));
                }
            }
    复制代码

    创建一个TermQuery对象, 对Code字段进行搜索, 构建List<SearchResult>类型的结果集, 并且绑定到DataGridView上面, 大功告成! enjoy~!

    下载源代码

    阅读更多WEBUS2.0 SDK文章

     
     
    分类: WEBUS
    标签: c#索引WEBUS
  • 相关阅读:
    Samba配置文件常用参数详解-OK
    SVN Server配置详解 及备份
    secure crt 基本设置***
    ultraedit15.00.0.1046注册码
    makefile中的shell语法 ***
    Spring (一) IOC ( Inversion Of Control )
    软件开发过程中会出来的几个版本
    poj3070
    Python基础 3----文件和网络
    HDU 4720 Naive and Silly Muggles (外切圆心)
  • 原文地址:https://www.cnblogs.com/Leo_wl/p/3199602.html
Copyright © 2020-2023  润新知