• 5个很少被提到但能提高NLP工作效率的Python库


    本篇文章将分享5个很棒但是却不被常被提及的Python库,这些库可以帮你解决各种自然语言处理(NLP)工作。

    Contractions

    Contractions它可以扩展常见的英语缩写和俚语。并且可以快速、高效的处理大多数边缘情况,例如缺少撇号。

    例如:以前需要编写一长串正则表达式来扩展文本数据中的(即 don’t → do not;can’t → cannot;haven’t → have not)。Contractions就可以解决这个问题

    Distilbert-Punctuator

    将丢失的标点符号的文本进行断句并添加标点符号……听起来很容易,对吧?对于计算机来说,做到这一点肯定要复杂得多。

    Distilbert-punctuator 是我能找到的唯一可以执行此任务的 Python 库。而且还超级准!这是因为它使用了 BERT 的精简变体。在结合 20,000 多篇新闻文章和 4,000 份 TED Talk 抄本后,对模型进行了进一步微调,以检测句子边界。在插入句尾标点符号(例如句号)时,模型还会适当地将下一个起始字母大写。

    Textstat

    Textstat 是一个易于使用的轻量级库,可提供有关文本数据的各种指标,例如阅读水平、阅读时间和字数。

    Gibberish-Detector

    这个低代码库的主要目的是检测难以理解的单词(或胡言乱语)。它在大量英语单词上训练的模型。

    NLPAug

    最好的要留到最后。

    完整文章

    5个很少被提到但能提高NLP工作效率的Python库

     
  • 相关阅读:
    进度条
    打开文件的功能代码 JFileChooser
    我对JAVA的初认知
    集合之五:Set接口
    集合之四:List接口
    集合之三:泛型
    Maven web项目(简单的表单提交) 搭建(eclipse)
    集合之二:迭代器
    集合之一:集合概述
    java的函数
  • 原文地址:https://www.cnblogs.com/deephub/p/15735310.html
Copyright © 2020-2023  润新知