有很多情况下我们需要获得某个网页上内容,例如:获得一个网页上的所有连接。但一般都是更高级的应用,比如获得一个网页表单需要填写的内容,以及form表单提交的连接,这样我们就可以在自己的网页上获得别人网页上的资源了。现在我们就以最简单的获得一个网页上的所有超链接为例介绍一下java解析网页上内容的基本方法。
主要实现就是使用URL和URLConnection两个类获得网页的流信息,然后使用正则表达式等方法取出自己需要的内容,代码如下:
package URLConnection; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.List; import java.util.StringTokenizer; public class GetInternet { /** * 获得网页中的超链接 * @author letthinking * @param urlStr url 例如:http://blog.csdn.net/yue19870813?viewmode=list * @return List<String> */ public List<String> getInternet(String urlStr){ List<String> list = new ArrayList<String>(); URL url = null; URLConnection conn = null; String nextLine = null; StringTokenizer tokenizer = null; try{ //获得网页资源 url = new URL(urlStr); //获得资源连接 conn = url.openConnection(); conn.connect(); BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream())); //开始读取网页信息解析出网页中的超链接 while((nextLine = reader.readLine()) != null ){ tokenizer = new StringTokenizer(nextLine); while(tokenizer.hasMoreTokens()){ String urlToken = tokenizer.nextToken(); if(isUrl(urlToken)){ list.add(getHttp(urlToken)); } } } }catch(Exception e){ } return list; } /** * 判断字符串中是否含有超链接 * @author letthinking * @param urlToken * @return */ public boolean isUrl(String urlToken){ if(urlToken.indexOf("http") != -1){ return true; } return false; } /** * 将字符串中超链接提取出来 * @author letthinking * @param urlToken * @return */ public String getHttp(String urlToken){ int start = urlToken.indexOf("http"); int end = urlToken.length(); String tempStr = urlToken.substring(start,end); end = tempStr.indexOf("\""); if(end == -1){ end = tempStr.length(); } return tempStr.substring(0,end); } public static void main(String[] args){ GetInternet g = new GetInternet(); List<String> list = g.getInternet("http://www.csdn.net/"); System.out.println("开始输出超链接"); for(String str:list){ System.out.println(str); } //System.out.println(g.getHttp("<link rel=\"stylesheet\" href=\"http://csdnimg.cn/www/css/main_new.css?20110813\" type=\"text/css\" media=\"all\" />")); } }运行后输出超链接,更多高级的应用大家自己拓展吧。