Spider Studio 数据挖掘集成开发环境
(最新版本: 2.7.12.1)
传统的多线程蜘蛛程序虽然采集速度快, 但是明明不需要所有内容, 却胡子眉毛一把抓, 将整个网页都下载下来当作一个文本进行处理. 由于网页内容参差不齐, 所以抓取质量常常无法保证; 在面对由ajax等动态技术呈现的信息时更是束手无策. 自从所见即所抓技术发明之后, 这一切便得到了改观. Spider Studio 以所见即所抓为核心, 以脚本的方式来完成抓取, 并且提供了大量辅助功能.
功能特点
1. C# 脚本化抓取
比如下面这段代码会打开本页并将产品简介提取出来显示在对话框中.
更多脚本使用信息请查看 所见即所抓脚本指南
2. 可视化定位
用鼠标在页面选择需要的内容, 开发环境将自动计算对应元素的JQuery表达式, 方便我们对其进行查看测试或者运用到脚本中.
3. 支持多级页面联合抓取
如果我们要从产品列表获取标题, 从详细列表获取具体参数的话. 多级页面联合抓取模型就能够发挥用场. 下面的例子是从GDT网站产品列表中找出"Spider Studio 集成开发环境"这款产品并打开显示其HTML的代码.
4. WSS 数据集成
如果您有WSS服务平台, 那么我们强烈建议您将获取的数据输出到WSS中去. 只有这样, 您才能够最方便的分析, 挖掘和再利用您的宝贵数据, 并利用它们创造新的价值.
5. 探索和发布脚本
欢迎光临我们的在线脚本库 http://sipderstudio.gdtsearch.com/scripts
应用场景
1. 数据抓取
视频: 百度搜索并提取搜索结果
2. Web自动化
技术支持服务
QQ群: 45995410
下载程序
分类: c#