Spring Boot集成jsoup实现html解析
myzbx 2024-12-24 14:28 29 浏览
1.什么是jsoup
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据,可操作 HTML 元素、属性、文本。
JSoup 功能
jsoup 实现 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。
- 从 URL,文件或字符串中提取并解析 HTML。
- 查找和提取数据,使用 DOM 遍历或 CSS 选择器。
- 操纵 HTML 元素,属性和文本。
- 根据安全的白名单清理用户提交的内容,以防止 XSS 攻击。
- 输出整洁的 HTML。
JSoup 主要类
大多数情况下,下面给出 3 个类是我们需要重点了解的。
Jsoup 类
Jsoup 类是任何 Jsoup 程序的入口点,并将提供从各种来源加载和解析 HTML 文档的方法。 Jsoup 类的一些重要方法如下:
方法 | 描述 |
static Connection connect(String url) | 创建并返回 URL 的连接。 |
static Document parse(File in, String charsetName) | 将指定的字符集文件解析成文档。 |
static Document parse(String html) | 将给定的 html 代码解析成文档。 |
static String clean(String bodyHtml, Whitelist whitelist) | 从输入 HTML 返回安全的 HTML,通过解析输入 HTML 并通过允许的标签和属性的白名单进行过滤。 |
Jsoup 类的其他重要方法可以参见 - https://jsoup.org/apidocs/org/jsoup/Jsoup.html
Document 类
该类表示通过 Jsoup 库加载 HTML 文档。可以使用此类执行适用于整个 HTML 文档的操作。 Element 类的重要方法可以参见 - http://jsoup.org/apidocs/org/jsoup/nodes/Document.html 。
Element 类
HTML 元素是由标签名称,属性和子节点组成。 使用 Element 类,您可以提取数据,遍历节点和操作 HTML。 Element 类的重要方法可参见 - http://jsoup.org/apidocs/org/jsoup/nodes/Element.html 。
2.代码工程
实验目的
实现解析liuhaihua.cn首页list
pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<parent>
<artifactId>springboot-demo</artifactId>
<groupId>com.et</groupId>
<version>1.0-SNAPSHOT</version>
</parent>
<modelVersion>4.0.0</modelVersion>
<artifactId>jsoup</artifactId>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-autoconfigure</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
</dependency>
</dependencies>
</project>
controller
package com.et.jsoup;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import java.util.HashMap;
import java.util.Map;
@RestController
public class HelloWorldController {
@RequestMapping("/hello")
public Map<String, Object> showHelloWorld(){
Map<String, Object> map = new HashMap<>();
map =JsoupUtil.parseHtml("http://www.liuhaihua.cn/");
map.put("msg", "HelloWorld");
return map;
}
}
工具类
package com.et.jsoup;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.utils.HttpClientUtils;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* @author liuhaihua
* @version 1.0
* @ClassName JsoupUtil
* @Description todo
* @date 2024/06/24/ 9:16
*/
public class JsoupUtil {
public static Map<String ,Object> parseHtml(String url){
Map<String,Object> map = new HashMap<>();
//1.生成httpclient,相当于该打开一个浏览器
CloseableHttpClient httpClient = HttpClients.createDefault();
CloseableHttpResponse response = null;
//2.创建get请求,相当于在浏览器地址栏输入 网址
HttpGet request = new HttpGet(url);
//设置请求头,将爬虫伪装成浏览器
request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36");
// HttpHost proxy = new HttpHost("60.13.42.232", 9999);
// RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
// request.setConfig(config);
try {
//3.执行get请求,相当于在输入地址栏后敲回车键
response = httpClient.execute(request);
//4.判断响应状态为200,进行处理
if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
//5.获取响应内容
HttpEntity httpEntity = response.getEntity();
String html = EntityUtils.toString(httpEntity, "utf-8");
System.out.println(html);
/**
* 下面是Jsoup展现自我的平台
*/
//6.Jsoup解析html
Document document = Jsoup.parse(html);
//像js一样,通过标签获取title
System.out.println(document.getElementsByTag("title").first());
Elements blogmain = document.getElementsByClass("col-sm-8 blog-main");
//像js一样,通过class 获取列表下的所有博客
Elements postItems = blogmain.first().getElementsByClass("fade-in");
//循环处理每篇博客
List<Map> list = new ArrayList<>();
for (Element postItem : postItems) {
Map<String,Object> row = new HashMap<>();
//像jquery选择器一样,获取文章标题元素
Elements titleEle = postItem.select(".entry-title a");
System.out.println("文章标题:" + titleEle.text());;
row.put("title",titleEle.text());
System.out.println("文章地址:" + titleEle.attr("href"));
row.put("href",titleEle.attr("href"));
//像jquery选择器一样,获取文章作者元素
Elements footEle = postItem.select(".archive-content");
System.out.println("文章概要:" + footEle.text());;
row.put("summary",footEle.text());
Elements view = postItem.select(".views");
System.out.println( view.text());
row.put("views",view.text());
System.out.println("*********************************");
list.add(row);
}
map.put("data",list);
} else {
//如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略
System.out.println("返回状态不是200");
System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
//6.关闭
HttpClientUtils.closeQuietly(response);
HttpClientUtils.closeQuietly(httpClient);
}
return map;
}
public static void main(String[] args) {
parseHtml("http://www.liuhaihua.cn/");
}
}
DemoApplication.java
package com.et.jsoup;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
@SpringBootApplication
public class DemoApplication {
public static void main(String[] args) {
SpringApplication.run(DemoApplication.class, args);
}
}
以上只是一些关键代码,所有代码请参见下面代码仓库
代码仓库
- https://github.com/Harries/springboot-demo
3.测试
- 启动spring boot应用
- 访问http://127.0.0.1:8088/hello,返回解析结果
4.引用
- 官网:https://jsoup.org/
- GitHub:https://github.com/jhy/jsoup/
- http://www.liuhaihua.cn/archives/710776.html
相关推荐
- IT之家学院:如何修改Win10 Edge浏览器下载路径?
-
IT之家讯目前Win10Edge浏览器的默认下载路径不可修改,只能是系统“下载”文件夹,虽然用户可以通过移动该文件夹位置来间接达到修改目的,但Edge浏览器本身却无法修改。不过我们可以通过修改注册表...
- Win 10自带Edge浏览器史上最强,好内核配了滥界面
-
微软在Win10上为我们带来了全新的Edge浏览器,而跌落神坛的IE正式被微软抛弃!随着Win10周年版更新的到来,Edge浏览器也带来了很多全新的特性,功能也更加完善!这让微软信心大增,微软甚...
- Win10全新浏览器Microsoft Edge图标:致敬IE
-
IT之家讯今天早些时候,微软宣布了斯巴达(Spartan)浏览器项目的官方命名,微软在Windows10上集成的新浏览器的内核名为Edge,所以大家一定猜到了,它被命名为MicrosoftEdge...
- Edge 84稳定版发布:优化集锦 默认禁用TLS 1.0/1.1
-
时隔6周时间,Edge浏览器的最新稳定版v84.0.522.40正式发布。新版本为IE模式改善了站点列表下载时间,在“以管理员身份运行”运行时允许用户登录浏览器等等。下载地址:https...
- 真相:Win10微软Edge和IE11浏览器图标相似的原因
-
IT之家讯5月7日消息,微软在Build2015大会上公布了Win10斯巴达浏览器的正式名称“MicrosoftEdge”以及正式图标,蓝色的“e”。这款新浏览器的图标让各位Windows老用户...
- 微软 Win11,20 多年来首个没有 IE 浏览器的 Windows 版本
-
IT之家6月26日消息在Windows10的生命周期中,你可能已经安装了IE浏览器、微软Edge的经典版本,以及新的Chromium驱动的Edge浏览器。这三个浏览器完...
- 微软宣布2022年6月15日停止支持IE浏览器:已推出25年
-
5月20日消息,在推出25年之后,微软最终决定于明年停止对IE浏览器的支持。多年来,这款网络浏览器基本上没有太多消费者使用,为此微软定于2022年6月15日完全停止对其支持,转...
- 我采访了一位 Pornhub 工程师,聊了这些纯纯的话题
-
成人网站在推动Web发展方面所起到的作用无可辩驳。从突破浏览器的视频能力限制,到利用WebSocket推送广告(防止被广告拦截器拦截),你必须不断想出各种聪明的办法,让自己处在Web技术创...
- 如何在 Microsoft Edge 中使用IE浏览器
-
随着微软Windows10,Windows11的推出,IE浏览器逐渐被抛弃,可是国内一些银行和政府网站还必须使用IE才能访问,下面我来解决这个问题。首先在MicrosoftEdge中启用IE模式...
- IE浏览器无法加载网站时将自动跳转到Edge中打开
-
来源:cnBeta.COM目前微软已经将开发重心放在基于Chromium的新版Edge浏览器上,而传统的InternetExplorer则逐渐被淘汰。也就是说,如果你当前使用的是IE...
- 告诉你手机信号栏中E、H、T都是什么意思!
-
手机信号经常会出现E啊,H啊,T啊……之类的字母,每次出现的时候小编都会自动关机,觉得手机坏掉了……ORZ……那么这些字母具体表示些什么意思呢?如果是G,那么代表的是GPRS,指2.5G网络,此时网速...
- 比Chrome更适合国人用 Chromium版Edge横空出世
-
编辑微软终于正式发布Chromium内核的Edge浏览器了。这意味着微软放弃了自研浏览器内核,Windows自带浏览器也成为了Chrome的马甲。关于微软为什么要这么做,笔者曾经撰文分析,大家可以点...
- Microsoft 新浏览器 Edge 将不再支持 ActiveX、VBScript 技术
-
Microsoft继宣布将推出将取代IE的全新浏览器Edge后,日前又再宣布Edge不会支持沿用以久的ActiveX、VBScript与BrowerHelperObjects(...
- 隐藏功能超炫酷 新版Edge浏览器还能这么玩
-
基于Chromium的新版Edge浏览器已经开放测试,但由于是测试期,可供用户选择的功能还比较少。不过有一部分功能已经内置到浏览器中,只是尚未开放而已。这就像汽车里的刷EPU一样,没事自己玩一玩,也是...
- 微软推出的新版Edge浏览器,让我抛弃用了5年的谷歌
-
随着新版Edge浏览器的发布,这个微软的亲儿子以崭新的面貌和大家见面啦。这次更新可谓是好评如潮,相比浏览器届的老大哥——谷歌浏览器,它少了些臃肿,但又多了一些独特的功能。今天,我就为大家介绍8...
- 一周热门
- 最近发表
-
- IT之家学院:如何修改Win10 Edge浏览器下载路径?
- Win 10自带Edge浏览器史上最强,好内核配了滥界面
- Win10全新浏览器Microsoft Edge图标:致敬IE
- Edge 84稳定版发布:优化集锦 默认禁用TLS 1.0/1.1
- 真相:Win10微软Edge和IE11浏览器图标相似的原因
- 微软 Win11,20 多年来首个没有 IE 浏览器的 Windows 版本
- 微软宣布2022年6月15日停止支持IE浏览器:已推出25年
- 我采访了一位 Pornhub 工程师,聊了这些纯纯的话题
- 如何在 Microsoft Edge 中使用IE浏览器
- IE浏览器无法加载网站时将自动跳转到Edge中打开
- 标签列表
-
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)
- SVG 文本 (32)
- 时钟启动 (33)
- HTML 游戏 (34)
- JS Loop For (32)