Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息
此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取;
import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class ListLinks { public static void main(String[] args) throws IOException { //将url赋值,初始化 String url = "http://news.ycombinator.com/"; print("url is %s...", url); //获取页面内容 Document doc = Jsoup.connect(url).get(); //将a标签下的href元素取出 Elements links = doc.select("a[href]"); //将含src的元素取出 例如:src="s.gif" Elements media = doc.select("[src]"); //将link标签下的href元素取出 Elements imports = doc.select("link[href]"); //输出含src的元素的个数 print(" Media: (%d)", media.size()); for (Element src : media) { //将tagname为img标签的取出,并输出 if (src.tagName().equals("img")) //第一个为tagname,输出的为img标签;第二个为src等于号后面的参数值,为此处为url网址,第三个为图片宽,第四个为图片高,第五个为alt的参数值,此例为空 print(" * %s: <%s> %sx%s (%s)", src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"), trim(src.attr("alt"), 20)); else //若tagname不为img,则仅输出三项内容 print(" * %s: <%s>", src.tagName(), src.attr("abs:src")); } //输出含link>href元素的个数 print(" Imports: (%d)", imports.size()); //循环每个link>href元素 for (Element link : imports) { //第一个为tagname,输出的为link标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为rel等号后面的参数值 print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel")); } //输出含a>href元素的个数 print(" Links: (%d)", links.size()); for (Element link : links) { //第一个为tagname,输出的为a标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为link标签含的文本值,若超过35个字符则,截取前35个字符 print(" * a: <%s> (%s)", link.attr("abs:href"), trim(link.text(), 35)); } } //重写print private static void print(String msg, Object... args) { System.out.println(String.format(msg, args)); } //重写trim private static String trim(String s, int width) { if (s.length() > width) return s.substring(0, width-1) + "."; else return s; } }
此处还用到了java占位符:
int year=2017;
int month=6;
int day=1;</P>
String str=String.format("今天是%d年%d月%d日,祝大家儿童节快乐!!!",
year, month, day);
代码中的String.format方法,用来使用占位符拼接字符串数据,具有类型效果的还有用于打印的:
System.out.printf("format string", Object...args)
其中的 %d 就表示一个十进制整数位置,这个位置会由后面参数补充后组成新的字符串
以下是所有的占位符及简要说明:
%s 字符串
%c 字符
%d 整数(十进制)
%x 整数(十六进制)
%o 整数(八进制)
%f 浮点型(十进制)
%a 浮点型(十六进制)
%e 指数类型9.38e+5
%g 通用浮点类型(f和e类型中较短的)
%n 换行
%% 百分号%
%tF 日期2017-05-09
%tT 时间08:52:59
%tA 星期一
%tZ 区时CTS
%tz 区时+0800
%tY 年份2017
%ty 年份17
%tm 月份05
%td 日期09
%tH 小时08
%tM 分钟52
%tS 秒钟59
%tL 毫秒999