Java实现爬虫技术Jsoup实例讲解-五号时光网

Java实现爬虫技术Jsoup实例讲解

小编发布于 2019-12-01 05:18:26
栏目：科技
来源：主引教程
共 5190 人围观

Java实现爬虫技术Jsoup实例讲解

Jsoup介绍

Jsoup是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup主要功能

注册中心:

解析HTML：URL、文件或字符串中解析HTML。
查找取出数据:使用DOM或CSS选择器来查找、取出数据。
操作HTML（增册改）：可操作HTML元素、属性、文本。

以实例来讲解Jsoup使用

步骤：创建项目、pom.xml引入、创建启动类、运行项目。

中文伪代码

需求：我们要爬取Docker技术文章，这个网站页面左边为菜单，右边为内容。

经过分析:菜单里的url，是在css的class：left-navigation下面的a标签下，并且url以/article/index/开始的。

内容：直接在css的class：article_content下面的html。开始写代码了：

首先：抓取网页：Document doc = Jsoup.connect(purl).get()。
开始用Jsoup对doc的查找来取得菜单，代码里是handleParent方法里面。
得到所有的菜单url，我们就可以开始抓取全部页面。
还是Document doc = Jsoup.connect(srcurl).get();这句把网页抓取下来
开始用Jsoup对doc的查找,标题、关键词、描述，内容。打日志显示出来。

pom.xml引入

<dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.11.3</version>
</dependency>

创建启动类

Java实现爬虫技术Jsoup实例讲解

上一篇：天文学家发现“三体”黑洞系统

下一篇：推行人工智能的同时，还有必要举办劳动技能大赛培养技工吗？

转载请说明出处：五号时光网 ©

所有分类

找怀旧魔兽私服 TBC魔兽世界私服超变魔兽sf 魔兽私服魔兽世界私服发布网急速魔兽私服 335魔兽私服魔兽sf 魔兽世界sf 聚玩魔兽私服 WLK微变魔兽路山魔兽sf 来团魔兽世界私服