Atitit table的读取解析from html by jsoup java html paresr
目录
4. /0NetApiPrj/src/htmlParseCls.java 2
html
1. css选择器 1
2. 基本过滤选择器: 1
3. 内容过滤选择器: 2
4. 可视化过滤选择器: 2
5. 属性过滤选择器: 2
6. 子元素过滤选择器: 2
7. java jsoup的过滤器 2
7.1. css过滤器 2
7.2. 内容过滤器(带排除) 3
8. 参考 4
方法 | 描述 |
关闭用 document.open() 方法打开的输出流,并显示选定的数据。 | |
返回对拥有指定 id 的第一个对象的引用。 | |
返回带有指定名称的对象集合。 | |
返回带有指定标签名的对象集合。 | |
打开一个流,以收集来自任何 document.write() 或 document.writeln() 方法的输出。 | |
向文档写 HTML 表达式 或 JavaScript 代码。 | |
等同于 write() 方法,不同的是在每个表达式之后写一个换行符。 |
Prj
/0NetApiPrj
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class htmlParseCls {
public static void main(String[] args) throws IOException {
String ht = "D:\\workspace\\0NetApiPrj\\assetsList.html";
Document doc = Jsoup.parse(new File(ht), "gbk");
Element Element_tab_elmt = doc.getElementById("table1");
Elements Elements_trs = Element_tab_elmt.getElementsByTag("tr");
for (Element element_tr : Elements_trs) {
Elements element_tr_tds = element_tr.getElementsByTag("td");
Map m = new HashMap();
m.put("no编号", element_tr_tds.get(0).text());
m.put("dept单位", element_tr_tds.get(1).text());
System.out.println(m);
}
}