您的位置首页百科知识

java爬虫系列:怎么用jsoup进行爬虫开发?(6)

java爬虫系列:怎么用jsoup进行爬虫开发?(6)

的有关信息介绍如下:

java爬虫系列:怎么用jsoup进行爬虫开发?(6)

jsoup是一个很强大的爬虫框架,当然也是很强大的html解析器,在这篇将会分享使用语法器进行获取和操作元素

第一步:获取文档的带有href的a标签,代码如下:

Connection.Response response = Jsoup.connect("http://127.0.0.1:8039/test/login.html") .method(Connection.Method.GET).execute();Document dom = response.parse();Elements el = dom.select("a[href]");System.out.println(el.toString());

第二步:获取文档的img标签,或者指定后缀进行或取,代码如下:

Elements el = dom.select("img[src$=.png]"); // 获取img为png的节点//Elements el = dom.select("img[src]"); // 获取所有img节点

第三步:获取class等于masthead的div标签,即某个div的class里面包含masthead节点,代码如下:

Elements el = dom.select("div.masthead");

// el.first(); //获取第一个节点

System.out.println(el.toString());

第四步:获取标签里面的子标签,如获取

g

,h3里面的a标签,就可以通过h2 a 获取,代码如下:

Document dom = response.parse();Elements el = dom.select("h3 a"); //在h3元素之后的a元素System.out.println(el.toString());

第五步:通过属性获取标签,比如获取属性dt="uu"的标签(sssg),代码如下:

Elements el = dom.select("[dt='uu']");System.out.println(el.toString());

第六步:dom.select(Selector),这里面的选择器多种多样,在运用是要灵活,其他比如还有组合选择器,如:

el#id: 元素+ID,比如:div#logo

el[attr]: 元素+class,比如:a[href]