爬取当当网的图书信息之工作流程介绍

前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富

我们是计算机类图书为例子，那么计算机类图书页面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL

当我们进入这个页面可以看到很多计算机类图书，什么都别说了，都抓取下来，然后在进入子品类页面继续抓取信息，我们以程序涉及品类为例

进来之后我们可以看到大量的图书，而且在页面上方我们可以看到100页，可不止这么一点还有99页没有显示出来，我们把这些图书的URL全部抓取下来。我们以《C++ primer plus》为例

这个页面有大量的图书信息，包含图书的价格，图书的作者，出版社等信息，这都是我们需要的信息，都可以抽取出来。

总结

给程序一个图书大类的URL，程序下载这个页面之后发现大量的图书小种类的URL，爬虫去下载小种类图书的信息后，发现页面有很多图书的URL，进入图书的URL可以抓取图书的相关信息

相关阅读:
第2章面向对象的设计原则（SOLID）：5_迪米特法则
第2章面向对象的设计原则（SOLID）：4_接口隔离原则（ISP）
第2章面向对象的设计原则（SOLID）：3_依赖倒置原则（DIP）
第2章面向对象的设计原则（SOLID）：1_单一职责原则（SRP）
第1章 UML基础：类的关系
将DHT11移植到Linux系统上(转)
Linux下用文件IO的方式操作GPIO（/sys/class/gpio）(转)
asm335x系列adc和触摸屏驱动(转)
(原创)AP6212蓝牙模块在am335x控制板上的应用
Am335x 下GPIO控制实例-驱动程序(转)

原文地址：https://www.cnblogs.com/zuin/p/6105813.html