• java解析Internet网页中的内容


           有很多情况下我们需要获得某个网页上内容,例如:获得一个网页上的所有连接。但一般都是更高级的应用,比如获得一个网页表单需要填写的内容,以及form表单提交的连接,这样我们就可以在自己的网页上获得别人网页上的资源了。现在我们就以最简单的获得一个网页上的所有超链接为例介绍一下java解析网页上内容的基本方法。

           主要实现就是使用URL和URLConnection两个类获得网页的流信息,然后使用正则表达式等方法取出自己需要的内容,代码如下:

    package URLConnection;
    
    import java.io.BufferedReader;
    import java.io.InputStreamReader;
    import java.net.URL;
    import java.net.URLConnection;
    import java.util.ArrayList;
    import java.util.List;
    import java.util.StringTokenizer;
    
    
    public class GetInternet {
    
    	/**
    	 * 获得网页中的超链接
    	 * @author letthinking
    	 * @param urlStr url 例如:http://blog.csdn.net/yue19870813?viewmode=list
    	 * @return List<String>
    	 */
    	public List<String> getInternet(String urlStr){
    		List<String> list = new ArrayList<String>();
    		URL url = null;
    		URLConnection conn = null;
    		String nextLine = null;
    		StringTokenizer tokenizer = null;
    		try{
    			//获得网页资源
    			url = new URL(urlStr);
    			//获得资源连接
    			conn = url.openConnection();
    			conn.connect();
    			BufferedReader reader = new BufferedReader(new 
    					InputStreamReader(conn.getInputStream()));
    			//开始读取网页信息解析出网页中的超链接
    			while((nextLine = reader.readLine()) != null ){
    				tokenizer = new StringTokenizer(nextLine);
    				while(tokenizer.hasMoreTokens()){
    					String urlToken = tokenizer.nextToken();
    					if(isUrl(urlToken)){
    						list.add(getHttp(urlToken));
    					}
    				}
    			}
    			
    		}catch(Exception e){
    			
    		}
    		return list;
    	}
    	
    	/**
    	 * 判断字符串中是否含有超链接
    	 * @author letthinking
    	 * @param urlToken 
    	 * @return 
    	 */
    	public boolean isUrl(String urlToken){
    		if(urlToken.indexOf("http") != -1){
    			return true;
    		}
    		return false;
    	}
    	
    	/**
    	 * 将字符串中超链接提取出来
    	 * @author letthinking
    	 * @param urlToken
    	 * @return
    	 */
    	public String getHttp(String urlToken){
    		int start = urlToken.indexOf("http");
    		int end = urlToken.length();
    		String tempStr = urlToken.substring(start,end);
    		end = tempStr.indexOf("\"");
    		if(end == -1){
    			end = tempStr.length();
    		}
    		return tempStr.substring(0,end);
    	}
    	
    	public static void main(String[] args){
    		GetInternet g = new GetInternet();
    		List<String> list = g.getInternet("http://www.csdn.net/");
    		System.out.println("开始输出超链接"); 
    		for(String str:list){
    			System.out.println(str); 
    		}
    		//System.out.println(g.getHttp("<link rel=\"stylesheet\" href=\"http://csdnimg.cn/www/css/main_new.css?20110813\" type=\"text/css\" media=\"all\" />"));
    	}
    }
    
           运行后输出超链接,更多高级的应用大家自己拓展吧。

  • 相关阅读:
    新年后的第一个学习总结
    2021/02/07周学习总结
    内网穿透
    有效的括号
    实现一个简单的模板字符串替换
    二叉树的最大深度
    前端性能和错误监控
    前端缓存
    display: none; opacity: 0; visibility: hidden;
    发布订阅模式与观察者模式
  • 原文地址:https://www.cnblogs.com/SunnyYue/p/3970288.html
Copyright © 2020-2023  润新知