• 帝国CMS采集


    帝国CMS采集其实很简单,使用帝国CMS采集插件即可完成。这里以7.0为例

    进入帝国CMS后台,选择“栏目”菜单 在左侧菜单中 选择 “采集管理”

    打开 “管理采集节点”

    可以看到所有已经存在的采集规则节点

    下面开始增加一个新的采集规则

    1. 帝国cms采集方法 点击增加节点按钮 
    2.  

      中间提示要选择要创建的栏目点击你要创建的栏目,比如国际新闻。好吧,点了就进去了。出现的界面有先节点名称,因为上面创建的是国际新闻这里就填写国际新闻父节点不用管(就是不填)

    3.  
       
      帝国cms采集方法
    4.  

      页面采集地址,一般是选择一个新闻列表页,可以在新浪的国际新闻那里复制一下,比如国际新闻几面的地址,地址栏复制一下就可以了。

    5.  
       
      帝国cms采集方法
    6.  

      采集页面地址方式二不用管不填内容页地址前缀写成

    7.  
       
      帝国cms采集方法
    8.  

      图片/FLASH地址前缀(内容)~~~截取内容简介这里都不用管开始填写采集内容正则这时候需要看网页的源代码注意

      帝国cms采集方法
    9.  

      信息页链接正则

    10.  


      帝国cms采集方法
    11.  

      标题图片正则不用填标题正则:打开内容页随便打开你刚才的大栏目里面的文章

    12.  
       
      帝国cms采集方法
    13.  
       
      帝国cms采集方法
    14.  

      副标题正则:~~~信息来源正则不用写新闻正文正则:

      好了提交!

    15.  
       
      帝国cms采集方法
    16.  

      下来就预览看看有没有错误的

    17.  
       
      帝国cms采集方法
    18.  

      点击“预览”采集,进入节点预览结果:

      帝国cms采集方法
    19.  

      采集内容页列表

      帝国cms采集方法
    20.  

      采集内容页页面:

      帝国cms采集方法
    21.  

      预览采集节点无误后,然后返回“管理节点”,点击“开始采集”链接就开始进行采集

      帝国cms采集方法
    22.  

      系统正在采集中

      帝国cms采集方法
    23.  

      采集完后显示本地临时入库的信息,这时可以对临时入库的信息进行修改或者删除

      帝国cms采集方法
    24.  

      对采集的信息进行审核并入库,点击入库全部信息按钮

      帝国cms采集方法
    25.  

      确定操作

      帝国cms采集方法
    26.  

      信息入库完毕提示

      帝国cms采集方法
    27.  

      信息入库完毕后下来点击管理信息

      帝国cms采集方法
    28.  

      我们可以看到刚刚采集入库的新闻信息

      帝国cms采集方法
    29.  

      到此所有的采集信息已经完成,帝国cms采集功能非常强大,还需要自己摸索。

    注意:

    一般采集不到的情况有2种:

    1、列表页选择的采集区域 正则不正确

    2、详细页正则错误

    可以通过预览逐项排查找到原因,基本上都可以采集到,包括伪静态。

  • 相关阅读:
    P6944[ICPC2018 WF]Gem Island【数学期望,dp】
    YbtOJ森林之和【dp】
    CF809DHitchhiking in the Baltic States【FhqTreap】
    YbtOJ序列计数【组合数学,莫队】
    Loj#2460「POI2010」桥Bridges【网络流,欧拉回路】
    CF802CHeidi and Library(hard)【费用流】
    YbtOJ相似子串【SA,RMQ,二分】
    YbtOJ连通的图【结论,线性基】
    YbtOJ毒瘤染色【LCT】
    go 结构体的实例化方式, 如果结构体的字段类型是:指针,slice,和map的零值都是nil需要先初始化才能使用
  • 原文地址:https://www.cnblogs.com/merray/p/3022121.html
Copyright © 2020-2023  润新知