搜索引擎网站, 像百度,后台有着超级大的数据库,数据库里有着海量的关键字,关键字又对应了很多网址,这些都是由程序(爬虫)从茫茫的互联网上一点一点收集来的。程序不断分析查找关键字,如果它判定这是数据库里没有的,就把它收入数据库中。反之 如果是一些垃圾信息,则会舍弃不要,继续前行。由于一个关键字会对应多个网站,这里就会有排序问题,当然,与关键信息越符合的当然会越靠前。
其次,爬虫爬取网页还存在一个是否能读懂的问题,如果网站是flash或者是js生成的,那爬虫就读取无能了。与关键字在贴切也不会收入。所以我们如何能让程序更好的懂得我们的网页,就是我们讲的优化了。