网络热词分析系统
毕业设计研究设计基本内容
本系统(网络热词百科分析系统),主要以互联网上各类公开的数据作为支撑。
系统将主要采用SSM的架构设计思想,使用Spring MVC 作为主体框架,并整合Spring + MyBatis等开源框架。
本系统可分为数据爬取,数据清洗,数据分析和数据展示四个模块:
数据爬取:整个分析过程的第一步,使用python语言,主要爬取互联网上公开透明合法的数据,以微博、今日头条的新闻进行爬取,获取热词数据主要以信息化领域方向热词为主,将百度百科,搜狗百科的解释作相似性分析,对为本系统提供海量的数据支持,减少容错率。
数据清洗:整个分析过程最重要的一步,主要使用python语言,为接下来的数据分析打下基础,其结果质量的优劣直接关系到模型效果和最终结论。
数据分析:最关键的一步,用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,它将直接产出分析出来的结果数据。
数据展示:数据可视化是最直观的一步,清晰、简洁、直观、有效的传达数据分析的结果,也是唯一展示出工作量的一步。提供某个时间段的热词查询、新建自己的词条,主要以信息化领域的热词百科为主,提供管理员审核机制,提供热词的分类和某个时间段热词的排行进行数据可视化,展示出分析结果。
由于研究实现的算法难度并不拔高,所以必须要在工作量上下功夫。