• 采集


    <?xml version="1.0" encoding="utf-8"?>
    <gathers>
      <gather>
        <!--&lt; < 小于号 &gt; > 大于号 &amp; & 和 &apos; " 单引号 &quot; " 双引号-->
        <gathertime>2012-7-28 12:09:09</gathertime>
        <!--1 按采集时间,2按采集页列表+时间,3 只按采集列表-->
        <gathertype>2</gathertype>
        <!--1 顺序,2倒序-->
        <gatherordery>1</gatherordery>
        <pagestart>1</pagestart>
        <pageend>3</pageend>
        <clickA>3000</clickA>
        <clickB>20000</clickB>
        <!--列表页-->
        <listA><![CDATA[>笑话列表</td>]]></listA>
        <listB><![CDATA[<span class="main_title">
    ]]></listB>
        <mlinkRex><![CDATA[<a href="([^>]*)" class="main_14" target="_blank" >([^>]*)</a>]]></mlinkRex>
        <mnameRex><![CDATA[散文,美文]]></mnameRex>
        <mdateRex><![CDATA[\d{4}(-)\d{1,2}(-)\d{1,2}]]></mdateRex>
        <listremovecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~&nbsp;~<img([^>]*)>]]></listremovecode>
        <!--详细页-->
        <nameRex><![CDATA[<h2>]]></nameRex>
        <nameRexB><![CDATA[</h2>]]></nameRexB>
        <!--1 采集url,2 图片下载到本地-->
        <picmode>1</picmode>
        <picRex></picRex>
        <stateRex></stateRex>
        <stateRexB><![CDATA[]]></stateRexB>
        <yearRex><![CDATA[qingganmeiwen,yc,xinxiu,shanggan,sanwen,suibi,ganrenwenzhang,renshengzheli]]></yearRex>
        <yearRexB><![CDATA[]]></yearRexB>
        <updatetimeRex></updatetimeRex>
        <updatetimeRexB></updatetimeRexB>
        <langRex><![CDATA[]]></langRex>
        <langRexB><![CDATA[]]></langRexB>
        <areaRex></areaRex>
        <areaRexB></areaRexB>
        <movetypeRex><![CDATA[查看此类型的所有笑话">]]></movetypeRex>
        <movetypeRexB><![CDATA[ </a>]]></movetypeRexB>
        <actorRex></actorRex>
        <actorRexB></actorRexB>
        <desA><![CDATA[<span id="text110">]]></desA>
        <desB><![CDATA[</span>]]></desB>
        <plistA><![CDATA[]]></plistA>
        <plistB><![CDATA[]]></plistB>
        <playlinkRex></playlinkRex>
        <!--本地type-->
        <playlinksplit><![CDATA[16,16,16,16,16,16,16,16]]></playlinksplit>
        <!--采集type-->
        <playlinksplitRex><![CDATA[12,1,4,8,18,15,20,23]]></playlinksplitRex>
        <itemname>lookmw</itemname>
        <charset>gb2312</charset>
        <playfrom>lookmw</playfrom>
        <playType>1</playType>
        <url>http://www.jokeji.cn</url>
        <playurl></playurl>
        <pageurl>http://www.jokeji.cn/keyword.asp?MaxPerPage=22&listtype=title&cid=0&me_page={0}</pageurl>
        <removecode><![CDATA[<td([^>]*)>~<td>~</td>~<tr>~<tr([^>]*)>~</tr>~\r~\n~\t~<script([^>]*)>~</script>~~<div([^>]*)>~</div>~<table([^>]*)>~</table>~<img([^>]*)>~&nbsp;~<iframe([^>]*)>~</iframe>~class="user_14"]] ></removecode>
        <!--语言-->
        <nextpageplay>1</nextpageplay>
        <linktype>1</linktype>
        <linkremovecode></linkremovecode>
      </gather>
    </gathers>
  • 相关阅读:
    java关键字synchronized
    JVM调优之jstack找出最耗cpu的线程并定位代码
    高性能Mysql
    awk使用入门
    JVM性能调优监控工具
    java垃圾回收算法
    JVM内存模型
    jvm之内存分配与回收策略
    leetcode 78. 子集(c++)
    leetcode 148. 排序链表(c++)
  • 原文地址:https://www.cnblogs.com/jiebian/p/2623086.html
Copyright © 2020-2023  润新知