Jsoup介绍
Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Jsoup主要功能
注册中心:
- 解析HTML:URL、文件或字符串中解析HTML。
- 查找取出数据:使用DOM或CSS选择器来查找、取出数据。
- 操作HTML(增册改):可操作HTML元素、属性、文本。
以实例来讲解Jsoup使用
步骤:创建项目、pom.xml引入、创建启动类、运行项目。
中文伪代码
需求:我们要爬取Docker技术文章,这个网站页面左边为菜单,右边为内容。
经过分析:菜单里的url,是在css的class:left-navigation下面的a标签下,并且url以/article/index/开始的。
内容:直接在css的class:article_content下面的html。开始写代码了:
- 首先:抓取网页:Document doc = Jsoup.connect(purl).get()。
- 开始用Jsoup对doc的查找来取得菜单,代码里是handleParent方法里面。
- 得到所有的菜单url,我们就可以开始抓取全部页面。
- 还是Document doc = Jsoup.connect(srcurl).get();这句把网页抓取下来
- 开始用Jsoup对doc的查找,标题、关键词、描述,内容。打日志显示出来。
pom.xml引入
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency>
创建启动类