进度:
我们完成了部分数据的爬取
同时情感分析和自然语言处理也展开了工作
下周计划:
完成全部数据的爬取
推进情感分析的工作,可以得到一定的结果
本周的爬取的数据都来自东方财富网中的股吧,我们希望通过爬取股吧内所有帖子,包括链接,题目,主题内容,发帖时间和评论等内容。使用Python递归地爬取股吧main_page中的每一个帖子的内容,爬取完一页后继续向下一页爬取,同时将爬取的数据存到mongodb中。
我们希望可以爬取更多的和股票相关的贴吧论坛等网址,还有对新帖子的实时抓取,这些会在以后的工作中实现。