今天完成了根据项目名称和关键词进行行业分类的任务,还进行了数据可视化的展示。
今天为了完成行业分类一直在搜文本分类、机器学习、文本聚类这些,后来发现实在是读不懂,也许是因为我急着完成任务没能静下心来理解的原因。我用了最简单也最不靠谱的方法——文本相似度,我把行业名称与代码存进了python的列表里,从数据库读取每个项目的名称,依次与列表里的行业名称做文本相似度比较,找出最相似的就是项目的行业。我感觉这种方法分出的行业有四分之三都是不对的,但是没办法,现在只能这样了,之后我会仔细读一读文本分类这些机器学习算法的文章。