• java爬虫简单实例


    爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
    /*
    * 获取
    * 将正则规则进行对象的封装。 
    * Pattern p = Pattern.compile("a*b");
    * //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
    * Matcher m = p.matcher("aaaaab");
    * //通过Matcher匹配器对象的方法对字符串进行操作。
    * boolean b = m.matches();
    */
    package com.js.ai.modules.pointwall.testxfz; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { public static List<String> getMailsByWeb() throws IOException{ //1,读取源文件。 URL url=new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html"); BufferedReader bufr=new BufferedReader(new InputStreamReader(url.openStream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\w+@\w+(\.\w+)+"; List<String> list=new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static List<String> getMails() throws IOException{ //1,读取源文件。 BufferedReader bufr=new BufferedReader(new FileReader("c:\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\w+@\w+(\.\w+)+"; List<String> list = new ArrayList<String>(); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static void main(String[] args) throws IOException { // List<String> list = getMails(); // for(String mail : list){ // System.out.println(mail); // } List<String> list=getMailsByWeb(); for(String mail:list){ System.out.println(mail); } } }

      

  • 相关阅读:
    git的简单操作
    angularjs的基础
    针对IE8透明度设置及一些简单的兼容问题
    sublime 部分常用的快捷键
    Linux简单的操作
    AngularJS 简单的介绍
    html5的viewport与css3的媒体查询
    css的优先级的相关内容
    (转) vmware 切换桥接模式
    从nginx的编译安装,了解编译安装原理(转)
  • 原文地址:https://www.cnblogs.com/ipetergo/p/6934684.html
Copyright © 2020-2023  润新知