• 人民日报1998年中文标注语料库及读取代码


     

    人民日报1998年中文标注语料库及读取代码

    代码作者:肖波

    语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司

    PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。

    由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《KTDictSeg 一种简单快速准确的中文分词方法》中下载。

    using System;
    using System.Collections;
    using System.Collections.Generic;
    using System.Text;
    using KTDictSeg;
    using General;

    namespace MachineLeaning
    {
        
    class T_Word
        
    {
            
    public String Word; //单词
            public int POS;  //词性
            public long Freq;   //词频  
        }
    ;

        
    /// <summary>
        
    /// 1998年人民日报标注预料库的提取
        
    /// </summary>

        class People1998
        
    {
            
    Private Members

            
    Public Members


        }

    }



    调用示例

                if (openFileDialogDict.ShowDialog() == DialogResult.OK)
                
    {
                    
    try
                    
    {
                        People1998.Load(openFileDialogDict.FileName);
                    }

                    
    catch(Exception e1)
                    
    {
                        CMsgBox.ShowErrorMessageBox(e1.Message);
                    }

                }

    语料库下载地址
    由于较大,分成5包下载
     

    https://files.cnblogs.com/eaglet/199801.part01.rar

    https://files.cnblogs.com/eaglet/199801.part02.rar

    https://files.cnblogs.com/eaglet/199801.part03.rar

    https://files.cnblogs.com/eaglet/199801.part04.rar

    https://files.cnblogs.com/eaglet/199801.part05.rar





  • 相关阅读:
    表单
    表格的应用
    图像与超链接
    HTML基础(部分标签的应用)
    DataFrame合并数据df.append
    DataFrame处理接口返回数据
    pandas读取excel文件
    数据加载、存储于文件格式:二进制数据格式pickle
    AttributeError: 'DataFrame' object has no attribute 'save'
    web信息收集:获取所有url
  • 原文地址:https://www.cnblogs.com/eaglet/p/888377.html
Copyright © 2020-2023  润新知