• java爬取读者文摘杂志


    java爬虫入门实战练习

    此代码仅用于学习研究

    此次练习选择了读者文摘杂志网站进行文章爬取

    练习中用到的都只是一些简单的方法,不过过程中复习了输入流输出流的使用以及文件的创建写入等知识,对自己还是有所帮助的


    经小伙伴提醒,部分文章存在乱码,我们将这两个地方修改一下就可以了

    代码可以直接运行(需要Jsoup包),唯一需要在E盘下创建一个名为FileTest的文件夹存储下载的文件或者修改一下代码中的存储路径

    第一处(第52行)修改为:

    OutputStreamWriter fileOutputStream = new OutputStreamWriter(new FileOutputStream(file,true),"UTF-8");

    第二处(第55行)修改为:

    fileOutputStream.write(Content.toString());

    原代码:

     1 import java.io.File;
     2 import java.io.FileOutputStream;
     3 
     4 import org.jsoup.Jsoup;
     5 import org.jsoup.nodes.Document;
     6 import org.jsoup.select.Elements;
     7  
     8 
     9 public class testDUZHE {
    10  
    11     public static void main(String[] args) throws Exception {
    12         // 第一步:访问读者首页
    13         String url = "https://www.dzwzzz.com/";
    14         Document document = Jsoup.connect(url).get();
    15         
    16         // 第二步:解析页面
    17         Elements datatime = document.select("a");
    18         //获取a标签
    19         for(int num=0;num<datatime.size();num++) {
    20             //判断文章链接
    21             if(datatime.get(num).attr("href").charAt(4)=='_') {
    22                 //获取a标签中href属性的值
    23                 String deHref = datatime.get(num).attr("href");
    24                 System.out.println("==================
    
    
    ");
    25                 System.out.println("开始获取"+deHref.substring(0, 4)+"年第"+deHref.substring(5,7)+"期");
    26                 System.out.println("
    
    
    ==================");
    27                 //根据a标签的值创建不同年份期刊的文件夹
    28                 File fileTest = new File("E:/FileTest/"+datatime.get(num).text());
    29                 fileTest.mkdirs();//创建文件夹
    30                 //访问不同期刊页面
    31                 String DuZhe = "https://www.dzwzzz.com/"+deHref;
    32                 Document  newdocu = Jsoup.connect(DuZhe).get();
    33                 //获取a标签
    34                 Elements a_Elements = newdocu.select("a");
    35                 for(int i=0;i<a_Elements.size();i++) {
    36                     //判断是否是文章链接
    37                     if (a_Elements.get(i).attr("href").charAt(0)=='d'
    38                             &&a_Elements.get(i).attr("href").charAt(1)=='u')
    39                     {
    40                         //访问文章所在页
    41                         String purpose = "https://www.dzwzzz.com/"+deHref.substring(0, 8)+a_Elements.get(i).attr("href");
    42                         Document finaldocu = Jsoup.connect(purpose).get();
    43                         //获取文章标题
    44                         Elements h1_elements = finaldocu.select("h1");
    45                         String title = h1_elements.text();
    46                         //获取文章内容
    47                         Elements p_Elements = finaldocu.select("p");
    48                         String Content = p_Elements.text();
    49                         //创建txt文件
    50                         File file = new File("E:/FileTest/"+datatime.get(num).text()+"/"+title+".txt");
    51                         //创建文件输出流
    52                         FileOutputStream fileOutputStream = new FileOutputStream(file,true);
    53                         //这里的true功能是不覆盖原有内容,所以多次运行程序会造成重复
    54                            //将文章内容写入文件
    55                         fileOutputStream.write(Content.getBytes());
    56                            fileOutputStream.close();
    57                            System.out.println("文章地址"+purpose);
    58                            System.out.println(title+"  下载成功!");
    59                     }
    60                 }
    61             }
    62         }
    63 
    64     }
    65  
    66 }

    运行截图:

    下载成功文件示例:

  • 相关阅读:
    关于PHP高并发抢购系统设计
    阿里云服务器带宽跑满怎么办
    DedeCMS数据负载性能优化方案简单几招让你提速N倍
    linux===启动sdk manager下载配置sdk的时候报错的解决办法
    linux===linux后台运行和关闭、查看后台任务(转)
    自动化测试===热门开源自动化测试框架
    python实战===图片转换为字符的源码(转)
    移动端测试===安卓设备共享程序-发布版本“share device”
    MACACA===gradle下载和安装
    jython
  • 原文地址:https://www.cnblogs.com/fangmr/p/11256611.html
Copyright © 2020-2023  润新知