java爬虫系列：怎么用jsoup进行爬虫开发?(6)-去问十一

java爬虫系列：怎么用jsoup进行爬虫开发?(6)

的有关信息介绍如下：

java爬虫系列：怎么用jsoup进行爬虫开发?(6)

jsoup是一个很强大的爬虫框架，当然也是很强大的html解析器，在这篇将会分享使用语法器进行获取和操作元素

第一步：获取文档的带有href的a标签，代码如下：

Connection.Response response = Jsoup.connect("http://127.0.0.1:8039/test/login.html") .method(Connection.Method.GET).execute();Document dom = response.parse();Elements el = dom.select("a[href]");System.out.println(el.toString());

第二步：获取文档的img标签，或者指定后缀进行或取，代码如下：

Elements el = dom.select("img[src$=.png]"); // 获取img为png的节点//Elements el = dom.select("img[src]"); // 获取所有img节点

第三步：获取class等于masthead的div标签，即某个div的class里面包含masthead节点，代码如下：

Elements el = dom.select("div.masthead");

// el.first(); //获取第一个节点

System.out.println(el.toString());

第四步：获取标签里面的子标签，如获取

g

，h3里面的a标签，就可以通过h2 a 获取，代码如下：

Document dom = response.parse();Elements el = dom.select("h3 a"); //在h3元素之后的a元素System.out.println(el.toString());

第五步：通过属性获取标签，比如获取属性dt="uu"的标签（sssg），代码如下：

Elements el = dom.select("[dt='uu']");System.out.println(el.toString());

第六步：dom.select(Selector)，这里面的选择器多种多样，在运用是要灵活，其他比如还有组合选择器，如:

el#id: 元素+ID，比如：div#logo

el[attr]: 元素+class，比如：a[href]