2014年做一个微信公众平台——平院小助手(pdsuhelp)。想做一款产品。推广平台,于是便做了这个平院微信图书馆。托管于BAE(项目地址:pdsuhelp.duapp.com/lt),眼下仅仅能提供查询功能,至于续借等功能。以后看情况加入!
项目工作流程:
1、获取图书馆查询图书地址,通过get传參,替换word的參数
2、抓取图书列表页内容,并显示,抓取每本图书详情页面超链接。并加上a 标签 ,眼下仅仅能抓取第一页
3:点击进入图书详情页面。抓取主要信息。书名,书放的位置。
主要技术:
1:;前端框架採用jquery mobile
2:參数传递(post传參,主要传递“搜索关键词。用于php抓取文件夹页处理脚本”,和传递每本书的详情页url地址,用于抓取书籍具体信息页处理脚本)
3:页面抓取技术:
主要用了PHP採集库-Snoopy.class.php
简单介绍:
Snoopy是一个php类。用来模拟浏览器的功能。能够获取网页内容,发送表单。
Snoopy的特点:
1、抓取网页的内容 fetch
2、抓取网页的文本内容 (去除HTML标签) fetchtext
3、抓取网页的链接,表单 fetchlinks fetchform
4、支持代理主机
5、支持主要的username/password验证
6、支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
7、支持浏览器重定向,并能控制重定向深度
8、能把网页中的链接扩展成高质量的url(默认)
9、提交数据而且获取返回值
10、支持跟踪HTML框架
11、支持重定向的时候传递cookies
要求php4以上就能够了,因为本身是php一个类,无需扩支持,server不支持curl时候的最好选择。