已经完成的功能:1 GUI界面效果已经达到了设计要求,经过review代码完成度较好,GUI.PY代码可以使用,完成了“贴吧名字关键字与URL关联”。
2 能够实现"贴吧名字关键字与URL关联"代码,顺利“对贴吧前10页进行爬取任务”。爬取发帖主题人的主题回复数据”代码, 经运行,获取某贴吧前10页html功能已实现。
3实现了 10个页面的数据整合到一个数据组中,并进行排序”的功能。
4完成爬下的发帖主题人信息进行图形化显示。
遇到的问题 (bug)
1 URL地址与贴吧名称关联过程,发现在浏览器中复制URL地址会出现乱码,不能和关键字匹配,而且输入关键字不能带“吧”字。比如要搜索“东华理工大学吧”,只能搜索“东华理工大学”。没有实现关键字与URL完全匹配。
2 最开始不能对需要爬取到的html代码块准确定位,后来改进正则表达式成功爬取到需要的数据,并完整爬取到10页内所有需要的数据。
3 ,程序生成exe文件的review,程序生成apk文件.有点问题。