很屌丝的urllib2 + re
似乎现在xpath很火的说,但是才第一次听说,老老实实的用正则
然后一个队列。。。
然后BFS
其实最纠结的是编码
看你到python有个chardet的第三方库,不知道好用不。以后试下