• Linguistic Data Consortium (LDC)


    搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目。

    About LDC:

    LDC,全名Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业,成立于1992年,目前由宾夕法尼亚大学负责主要运营。
    LDC最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,是主要的科研语言资源管理分发机构。
    现在每年LDC大概新增30~36个语料。

    Join LDC:

    任何机构交钱就可以加入LDC,加入后就成为了LDC的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
    以PTB语料为例,会员价0,非会员价1700刀。
    那么要成为会员每年的年费是多少呢?

    对于非盈利机构,价格2400刀/年
    对于盈利性机构,价格24000刀/年

    在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样……网站上写的很模糊)。
    想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。

    Data:

    LDC的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊= =

    浏览全部语料:https://catalog.ldc.upenn.edu/byyear

    Data Scholarships:

    LDC给穷学生提供了免费申请数据的机会……
    申请人需要满足两个条件:

    1、是在校本科生或研究生(没有博士?还是说graduate student包含了博士?),而且所在学校没有买LDC的数据。
    2、本人有很好的研究计划而且是真穷……支付不起那个数据费用。

    申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。

    一年有两个申请期,春秋各一次。

    ----

    下面开始个人吐槽:

    黑……真TM黑……
    不过想想visual studio要上千刀,matlab要上千刀……我真有点怀疑要多有钱才能搞学术……

    ref:

    https://www.ldc.upenn.edu/about/ldc-overview

  • 相关阅读:
    【JMeter】if语句中不能Failure=false解决办法
    【java】method.invoke(方法底层所属对象/null,new Object[]{实际参数})
    【java设计模式】【行为模式Behavioral Pattern】模板方法模式Template Method Pattern
    【java设计模式】代理模式
    33-算法训练 安慰奶牛
    32-java 里面list的问题
    31-java中知识总结:list, set, map, stack, queue
    30-算法训练 最短路 spfa
    29-算法训练 结点选择-超时了!!!
    28-算法训练 最大最小公倍数 -贪心
  • 原文地址:https://www.cnblogs.com/plwang1990/p/4206085.html
Copyright © 2020-2023  润新知