- 我们经常需要对分析的数据提取常用词,做词云展示
- 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示
- 再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具
- 最后,只需要将词云生成一张图片就可以直观地看到结果。
- 那么在今天的实战项目里,有 3 个目标需要掌握:
- 1、掌握词云分析工具,并进行可视化呈现;
- 2、掌握 Python 爬虫,对网页的数据进行爬取;
- 3、掌握 XPath 工具,分析提取想要的元素 。
- 如何制作词云
- 首先我们需要了解什么是词云
- 词云也叫文字云,它帮助我们统计文本中高频出现的词,过滤掉某些常用词(比如“作曲”“作词”),将文本中的重要关键词进行可视化
- 方便分析者更好更快地了解文本的重点,同时还具有一定的美观度
- Python 提供了词云工具 WordCloud
- 首先我们需要了解什么是词云
- 给毛不易的歌词制作词云
- 项目流程
- 1、在准备阶段:我们主要使用 Python 爬虫获取 HTML,用 XPath 对歌曲的 ID、名称进行解析,然后通过网易云音乐的 API 接口获取每首歌的歌词,最后将所有的歌词合并得到一个变量。
- 2、在词云分析阶段,我们需要创建 WordCloud 词云类,分析得到的歌词文本,最后可视化
- 项目流程
- 总结
- 如果你用 Python 作为数据采集工具,就需要掌握 Python 爬虫和 XPath 解析
- 我们今天讲到了词云工具 WordCloud,它是一个很好用的 Python 工具,可以将复杂的文本通过词云图的方式呈现