java爬虫系列:怎么用jsoup进行爬虫开发?(6)
的有关信息介绍如下:
jsoup是一个很强大的爬虫框架,当然也是很强大的html解析器,在这篇将会分享使用语法器进行获取和操作元素
第一步:获取文档的带有href的a标签,代码如下:
Connection.Response response = Jsoup.connect("http://127.0.0.1:8039/test/login.html") .method(Connection.Method.GET).execute();Document dom = response.parse();Elements el = dom.select("a[href]");System.out.println(el.toString());
第二步:获取文档的img标签,或者指定后缀进行或取,代码如下:
Elements el = dom.select("img[src$=.png]"); // 获取img为png的节点//Elements el = dom.select("img[src]"); // 获取所有img节点
第三步:获取class等于masthead的div标签,即某个div的class里面包含masthead节点,代码如下:
Elements el = dom.select("div.masthead");
// el.first(); //获取第一个节点
System.out.println(el.toString());
第四步:获取标签里面的子标签,如获取
g
,h3里面的a标签,就可以通过h2 a 获取,代码如下:Document dom = response.parse();Elements el = dom.select("h3 a"); //在h3元素之后的a元素System.out.println(el.toString());
第五步:通过属性获取标签,比如获取属性dt="uu"的标签(sssg),代码如下:
Elements el = dom.select("[dt='uu']");System.out.println(el.toString());
第六步:dom.select(Selector),这里面的选择器多种多样,在运用是要灵活,其他比如还有组合选择器,如:
el#id: 元素+ID,比如:div#logo
el[attr]: 元素+class,比如:a[href]



