原因:一个java的爬虫,就是定时抓取信用中国上的部分内容,当时用的是spring的定时任务,某天意外发现,部分数据有重复
先解决@scheduled 执行两次的问题,原来是因为tomcat先加载appBase之后又加载了docBase,导致定时任务加载了两次。
解决方案
<Host name="localhost" appBase="webapps" unpackWARs="true" autoDeploy="true">
<Valve className="org.apache.catalina.valves.AccessLogValve" directory="logs"
prefix="localhost_access_log" suffix=".txt"
pattern="%h %l %u %t "%r" %s %b" />
<Context docBase="qzcredit" path="/" reloadable="true" />
</Host>
改为
<Host name="localhost" appBase="" unpackWARs="true" autoDeploy="true">
<Valve className="org.apache.catalina.valves.AccessLogValve" directory="logs"
prefix="localhost_access_log" suffix=".txt"
pattern="%h %l %u %t "%r" %s %b" />
<Context docBase="../webapps/qzcredit" path="/" reloadable="true" />
</Host>
思考
为啥会有部分数据重复呢?
回想起不久前看过《java并发编程实战》(还在努力啃...),看到过竞态条件。
当某个计算的正确性取决于多个线程的交替执行时序时,就会发生竞态条件。最常见的竞态条件就是
“先检查后执行”
和读取-写入-修改
。
在入库前,我也检查过是否有数据,如果没有则插入,才导致了部分重复。
关于并发的详细内容,我也会写一篇阅读笔记供大家参考。