Java实现爬虫技术Jsoup实例讲解

  • 小编 发布于 2019-12-01 05:18:26
  • 栏目:科技
  • 来源:主引教程
  • 5190 人围观


Java实现爬虫技术Jsoup实例讲解

Jsoup介绍

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。


Jsoup主要功能

注册中心:

  • 解析HTML:URL、文件或字符串中解析HTML。
  • 查找取出数据:使用DOM或CSS选择器来查找、取出数据。
  • 操作HTML(增册改):可操作HTML元素、属性、文本。



以实例来讲解Jsoup使用

步骤:创建项目、pom.xml引入、创建启动类、运行项目。



中文伪代码

需求:我们要爬取Docker技术文章,这个网站页面左边为菜单,右边为内容。

经过分析:菜单里的url,是在css的class:left-navigation下面的a标签下,并且url以/article/index/开始的。

内容:直接在css的class:article_content下面的html。开始写代码了:

  • 首先:抓取网页:Document doc = Jsoup.connect(purl).get()。
  • 开始用Jsoup对doc的查找来取得菜单,代码里是handleParent方法里面。
  • 得到所有的菜单url,我们就可以开始抓取全部页面。
  • 还是Document doc = Jsoup.connect(srcurl).get();这句把网页抓取下来
  • 开始用Jsoup对doc的查找,标题、关键词、描述,内容。打日志显示出来。

pom.xml引入


<dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.11.3</version>
</dependency>

创建启动类

Java实现爬虫技术Jsoup实例讲解

转载请说明出处:五号时光网 ©