3.文本分类的蓝图

3.文本分类的蓝图
现在已经了解了自动文本分类的基本范围，下面将看一看建立自动文本分析系统的完整流程的蓝图。这包括在前面提到的训练和测试阶段必须要完成的一系列步骤。为建立文本分类系统，需要确认依据拥有数据来源并获取了这些数据，可以开始将这些数据送入系统。假设已经下载了数据集，并且准备好了数据，下面给出一个文本分类系统典型工作流程的主要步骤：
1. 准备训练和测试数据。
2. 文本规范化处理。
3. 特征抽取。
4. 模型训练。
5. 模型预测与评估。
6. 模型部署。
为简历文本分析器，需要按照顺序执行这些步骤。如图新鲜事了文本分类系统详细的工作流程，主要处理过程突出地显示在训练和预测部分。

注意，这里有训练和预测两个主要的矩形框，它们表示的是建立文本分类器的两个主要过程。通常情况下，将数据集划分为两个或三个部分，分别称为训练集、验证集（可选）和测试机。如图中，可以看到两个过程都用到了文本规范化处理和特征提取模块，这说明无论想对哪个文档进行分类或预测它的类型，这个文档在训练和预测阶段都必须执行相同的转换处理。首先对每个文档进行预处理和规范化处理，然后T恤与该文档有关的特征。这些过程在训练过程和预测过程总是保持一致，以确保分类模型保持监测的一致性。

在训练过程中，每个文档都有对应的分类或类型，这些分类或类型是提前手工标注和组织的。这些训练文档在文本规范化模块中处理和规范化，输出整齐和标准化的文档。介质，将它们送入特征提取模块，这一模块使用不同的特征提取技术从文档中提取有意义的特征。

下面会介绍主流的特征提取技术。因为标准的机器学习算法处理的是数字向量，所以这些特征通常是数组或向量。一旦获得特征后，就可以选择有监督的学习方法并训练模型。

训练模型过程需要将文档的特征向量和每个文档对应的标签送入，使得算法可以学习每个分类或类型对应的不同模式，可以重用这些学习到的知识预测未来新文档的分类。一般情况下，使用一个可选的验证数据集来评估分类算法的性能，以确保算法使用训练过程中的数据获得较好的推广能力。训练过程结束后，这些特征和机器学习算法的组合产生了分类模型。通常情况下，会使用不同的参数对这个模型进行调优已获得一个性能够好的模型，这一过程称为超参数调用。

上图中显示的预测过程包括预测新文档的类型或评估在测试数据上预测的工作原理两个部分。测试数据集文档经过同样的规范化处理和特征提取后，这些文档的特征被送到训练好的分类模型，这个模型根据前期训练好的模式预测每个文档可能的类标签。如果有手工标注的这些文档的真实类标签，可以通过使用不同度量标准（比如准确率）比较真实标签和预测标签，评估这个模型的性能。这将反映模型对于新文档的预测性能。

一旦获得了一个稳定的、可工作的模型，最后一步通常是部署这个模型，这包括存储这个模型和相关依赖的文件，将模型部署为一个服务或者可执行程序，它批量预测新文档的类型，或以 Web 服务的形式满足用户请求。这里有很多不同的机器学习模型部署方法，这通常取决于你后续如何访问这些模型。
相关阅读:
gcc 编译器常用的命令行参数一览
 linux下源代码分析和阅读工具比较
 Linux系统——C/C++开发工具及环境搭建
 GDB调试——经验总结
 gdb调试的艺术——Debug技巧
 命令__cp、scp（Secure Copy）
常用shell脚本命令
 命令__查找、替换、删除
 UltraEdit 删除空行
 命令__shell数字-字符串比较
原文地址：https://www.cnblogs.com/dalton/p/11353934.html