Spark机器学习：TF-IDF实例讲解

测试数据源：20 Newsgroups (http://qwone.com/~jason/20Newsgroups/)，其中包含20个领域的新闻，此次我们使用20news-bydate-train作为测试数据.。

其结构如下

Spark Task:

对多篇文章提取其特征关键字以备检索、分类使用(关键字视为一个单词)

输入内容文件格式

(article_id，content...)

要求输出格式

(article_id,文章前20个特征关键字)

The Question to be solved：

1.虽然MLib提供了TF-IDF的实现,但是文章id无法跟踪.(提示:使用wholefile和zip函数)

2.MLib输出的结果是该文章所有单词对于的TF-IDF,格式必得转换

相关阅读:
阿里巴巴数据库分库分表的最佳实践
Tomcat控制台日志乱码解决方案
区块链：多链体系在提升性能的同时，怎么去保证单链被攻击性问题
在 CentOS 7 1801 中安装 PostgreSQL-11
为什么即使现在生意不太好做，还是有一批批的人开始做生意？
投资十几万可以做点什么生意？
理发店真是一个暴利行业吗？
今日头条是怎么盈利的？
中国都有哪些著名的风投失败的案例？
基于语音应用的10项最佳实践

原文地址：https://www.cnblogs.com/sunrunzhi/p/9491443.html