训练集测试集划分 train_test_split(X, y, stratify=y）

训练集测试集划分 train_test_split(X, y, stratify=y）

from sklearn.model_selecting import train_test_spilt()
参数stratify：依据标签y，按原数据y中各类比例，分配给train和test，使得train和test中各类数据的比例与原数据集一样。

例如：A:B:C=1:2:3
split后，train和test中，都是A:B:C=1:2:3
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配
一般都是=y

http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html

TF-IDF (Term Frequency - Inverse Document Frequency)

TfidfVectorizer 参数意义：

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.build_tokenizer

详细解释：

https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction
相关阅读:
自动对一个文件夹下的N个word文件批量执行一个宏
 PHP正则匹配联系方式手机号、QQ、微信、邮箱、固定电话
 私信基本功能数据库设计
 ArcGIS三分式标注、四分式标注和同时上下标实现
 Word2019文档中将页面边框更改为文本边框的方法
 Arcgis彻底删除和卸载
 ArcMap中各种基本概念的介绍
 ArcGIS Python工具箱.pyt裁剪工具
 C# Object对象的ToString方法在转换日期时丢失毫秒
 2020年糖尿病领域中国学者学术影响力排名
原文地址：https://www.cnblogs.com/Allen-rg/p/10598144.html

训练集测试集划分 train_test_split(X, y, stratify=y）

TF-IDF (Term Frequency - Inverse Document Frequency)

TfidfVectorizer 参数意义：