• phantomjs,selenium,pyv8,pythonwebkit,,,,,,,,,,,,,


    Pyv8,PythonWebKit,Selenium,PhantomJS,Ghost.py  等等。。。。
    
    快速构建实时抓取集群[searchtb]
    
    定义:http://i.cnblogs.com/EditPosts.aspx?opt=1
    
    首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特性。
    
    
    在本文提到的实例系统里面,主要用到 linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存 储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。
    
    
    名词解析:
    
    1.  抓取环:抓取环指的是spider在存储中获取url,从互联网上下载网页,然后将网页存储到数据库里面,最后在从存储里面获取下一个URL的一个流程。 2.  Linkbase:链接库的存储模块,包含一般的链接信息;是抓取系统的核心,使用redis存储。 3.  XPATH:一门在 XML 文档中查找信息的语言,XPath 可用来在 XML 文档中对元素和属性进行遍历, 是 W3C XSLT 标准的主要元素。使用XPATH以及相关工具lib进行链接抽取和信息抽取。 4.  XPathOnClick:一个chrome的插件,支持点击页面元素,获取XPATH路径,用于编辑配置模板。 5.  Redis:一个开源的KV的内存数据库,具备很好的数据结构的特征和很高的存取性能。用于存储linkbase信息 6.  Django:爬虫管理工具,用于模板配置,系统监控反馈。Django在这里主要是用来管理一个数据库,使用Admin功能。 7.   Pagebase:页面库,主要是存储网页抓取的结果,以及页面抽取的结果,和dump交互,使用mysql实现。 8.    Scrapy:一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。
  • 相关阅读:
    毕业设计:文献参考(十九)
    毕业设计:文献参考(十八)
    毕业设计:文献参考(十七)
    毕业设计:文献参考(十六)
    毕业设计:文献参考(十五)
    毕业设计:文献参考(十四)
    毕业设计:文献参考(十三)
    毕业设计:文献参考(十二)
    毕业设计:文献参考(十一)
    MySQL8.0失踪记-连接时2003报错、服务列表不显示、服务启动后立即停止、重装卡在starting server
  • 原文地址:https://www.cnblogs.com/timssd/p/5070378.html
Copyright © 2020-2023  润新知