• Python 处理和理解文本


    所有机器学习(ML)算法,无论是有监督的还是无监督的,通常都会使用数值格式的输入特征。虽然这是特征工程的一个独立主体,但是仍然将详细的讨论它。为了实现数值格式的特征输入,你需要清洗、规范化和预处理初始文本数据。通常,文本语料库和原始文本的数据格式即非准确的,也非规范的,当然,应该可以预料到这些,毕竟文本数据是高度非结构化的。文本处理,或者更具体的说,文本预处理,涉及使用各种技术将原始文本转换成定义良好的语言成分序列,这些序列具有标准的结构和标记。

    通常,额外的元数据也会以注释的形式存在,以给文本组件(如标签)添加更多的含义。以下是将要讨论的一些主流文本预处理技术:

    • 切分(tokenization)。
    • 标注(tagging)。
    • 分块(chunking)。
    • 词干提取(stemming)。
    • 词性还原(lemmatization)。

    除了这些技术之外,还需要执行一些基本操作,例如处理拼写错误的文本、删除停用词,以及根据所需处理其他不相干的成分。需要记住一件重要的事情,一个强大的文本预处理系统始终是 NLP 和文本分析中所有程序的重要组成部分。其主要原因是在预处理之后获得的所有文本组件,无论是单词、短语、句子还是标识,形成了下一个阶段程序输入的基本构件,这些程序执行更复杂的分析,包括学习模式和提取信息。因此,俗话说 ”垃圾输入,垃圾输出“ 在这里非常中肯,因为如果无法正确的处理文本,最终只能从应用程序和系统中获的多余和不相关的结果。

    文本处理还有助于文本的清洗和标准化,这在文本分析系统中大有裨益,如可以提高分类器的准确度。还可以以注释的形式获取附加信息和元数据,它们可以提供有关文本的更多信息。后续会使用清洗、删除无用标识、词干和词根的各种技术来研究文本规范化。

    另一个重要内容是理解经过处理和规范化后的文本数据,这涉及重新审视语言与法和结构的相关概念。包括句子、短语、词性、浅层分析和语法。将遵循一个规则确定的路径,从文本处理开始,逐步探索与之相关的各种概念和技术,并最终理解文本结构的语法。

  • 相关阅读:
    算法31----单调数列
    算法30----三维形体的表面积、周长
    2、Attentive Group Recommendation----注意力集中的群组推荐
    1、Attention_based Group recommendation——基于注意力机制的群组推荐
    算法29-----最大三角形面积和周长
    算法28-----范围求和
    BPR贝叶斯个性化排序算法
    Testing
    Git
    Testing
  • 原文地址:https://www.cnblogs.com/dalton/p/11353900.html
Copyright © 2020-2023  润新知