Python爬虫与一汽项目【综述】

项目来源

这个爬虫项目是去年实验室去一汽后的第一个项目(基本交工，现在处于更新维护阶段)。内容大概是，获取到全国31个省份政府的关于汽车的招标公告，再用图形界面的方式展示爬虫内容。在完成政府招标采购网之后，提出新的关于国企的招标信息，这些爬虫都是关于这些企业的爬虫代码。

需要的安装的东西不多，语言就用python3

数据库：mysql 可以安装正常的mysql，也可以安装wampserver的php服务器（wampserver里面有轻量级的mysql服务器，很方便）

数据库安装完成后，再安装一个mysql前端的管理工具，mysql front或者navicat premium(之前用的就是这个)

******************************************************

安装完成之后，是编写说明

爬取网站中与车相关的网页列表，要往数据库存 title(标题),href(网页的链接),招标时间，content（网页中的招标内容）

编写风格可以参照附件里的爬虫文件，解析工具的话可以用Beautiful Soup，也可以用Xpath（我习惯于Xpath，因此后续的文件都是用Xpath写的）

附件里爬虫文件的流程：

1. 先根据URL （可能是get也可能是post）获取到html

2. 通过解析工具从网页列表中获得每个单独网页的标题时间网页链接

3. 判断标题是否和车相关，时间是否符合设置要求

4. 如果符合条件，根据网页链接来获取网页中的content内容

5. 这个内容其实就是把整个网页中的文字，去掉标签，加到一起变成一段str

相关阅读:
python django 路由系统
django的as_view方法实现分析
基类View
Django templates（模板）
Django ORM那些相关操作
$.ajax()方法详解
Http协议中的get和post
Django组件-cookie,session
Django与Ajax,文件上传,ajax发送json数据,基于Ajax的文件上传,SweetAlert插件
Django基础(4) ----django多表添加,基于对象的跨表查询

原文地址：https://www.cnblogs.com/bep-feijin/p/10602798.html