ssbc 运行一段时间后,大概半个小时,就莫名奇妙停止不爬了,通过错误提示可以看出,其实是ssbc与mysql(maridb)断开连接了,导致程序异常,当然就插入不了数据了。
所以解决办法很简单,有多种解决办法:
- 一种是写个脚本,定时重启爬虫。这种方法比较笨,效率低下,因为不知道什么时候爬虫停止了。
- 另一种是修改下代码,当mysql断开连接时,再次重连mysql就可以拉。
附上方法二修改后的爬虫源码(simdht_worker.py)
附件下载见原文
============更新======
上面只是修复了爬虫的问题,它只是负责抓取数据。index_worker.py
是用来建立索引,和simdht_worker.py
问题一样,运行一会儿就停止,导致无法搜索到新数据。所以也需要修复下