如何利用Java爬取网站数据?_如何利用java爬取网站数据的方法
myzbx 2025-09-14 23:21 5 浏览
1.Jsoup介绍
- 官网文档:https://jsoup.org
- Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
2. Jsoup快速入门
- 获取网页标题
String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
Document document = Jsoup.connect(url).get();
String title = document.select("title").text();
System.out.println(title);
```
- 运行效果:手机 - 商品搜索 - 京东
3. 网站数据分析
3.1 分析网站的访问地址
- 以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。
- URL:
https://search.jd.com/Search?keyword=手机&wq=手机&page=1
3.2 分析网站的页面结构
- 通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。
<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />
- 可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。
4. 实战实现过程
- 获取第1页的商品基本数据
public static void main(String[] args) throws Exception {
//第1页地址
String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
//发送http请求
Document document = Jsoup.connect(url).get();
//在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
lis.forEach(
li -> {
//获取商品sku
String sku = li.attr("data-sku");
//获取商品name
String name = li.select("div[class='p-name p-name-type-2'] a em").text();
//获取商品图片地址
String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
System.out.println(String.format("%s, %s, %s", sku, name, img));
}
);
}
- 效果预览
- 改造为分页获取
public static void main(String[] args) throws Exception {
//第N页地址
String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=" + i;
//发送http请求
Document document = Jsoup.connect(url).get();
//在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
lis.forEach(
li -> {
//获取商品sku
String sku = li.attr("data-sku");
//获取商品name
String name = li.select("div[class='p-name p-name-type-2'] a em").text();
//获取商品图片地址
String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
System.out.println(String.format("%s, %s, %s", sku, name, img));
}
);
}
相关推荐
- 泰国野猪足球队一17岁队员在英去世,曾被困洞穴18天后奇迹获救
-
泰国网图当地时间2月14日,现年17岁的泰国野猪队队员多姆(Dom,本名DuangpetchPromthep)在英国去世,他曾于2018年被困于洞穴18天后奇迹获救。据英国广播公司(BBC)报道,...
- 你需要知道的 19 个 console 实用调试技巧
-
大家好,我是Echa。之前给大家介绍了《H5移动端调试攻略——超实用》,有兴趣的小伙们可以回过头看看。浏览器的开发者工具为我们提供了强大的调试系统,可以用来查看DOM树结构、CSS样式调试、动画调试...
- 深圳嘉华学校:什么是JQuery?_深圳嘉华职业技术学校
-
什么是JQuery?这里将由北大青鸟深圳嘉华来介绍下关于JQuery部分知识,希望能让大家对JQuery有初步的映象。JQuery是继prototype之后又一个优秀的Javascript库。它是轻量...
- Vue3 实现一个简单的放大动画_vue放大图片
-
设计思路定位动画我们在之前已经实现了。那么这里只要考虑如何实现放大动画,最后将两者结合起来就好。从后端拿到的返回值是一个固定长度的数组,所以这里还是用div利用flex布局将图片平铺展示,利用...
- JavaScript 事件循环机制详解_js事件循环队列
-
记录、分享IT相关知识和见闻!想要了解更多软件相关知识的朋友!记得右上角添加【关注】,支持一下!JavaScript是单线程语言,意味着同一时间只能执行一个任务。为了处理异步操作(如定时器、网络请求...
- 前端性能优化新维度:渲染流水线深度解析
-
当开发者沉迷于框架选型和语法特性时,浏览器渲染引擎正在以每秒60帧的速度执行着精密计算。本文将揭示现代浏览器的渲染流水线工作原理,探索超越传统性能优化的新思路。一、渲染流水线的五大阶段1.JavaSc...
- 如果看未来,DOM应该也不是答案_如果知道未来
-
Managershare:未来,还会有连通APP的APP。不过,一切都不会基于网页。有一个词"手机网站"(mobileweb),指供手机浏览的网站,但它是不存在的。人们提到"移动互联网"的时候,其实...
- Springboot之登录模块探索(含Token,验证码,网络安全等知识)
-
简介登录模块很简单,前端发送账号密码的表单,后端接收验证后即可~淦!可是我想多了,于是有了以下几个问题(里面还包含网络安全问题):1.登录时的验证码2.自动登录的实现3.怎么维护前后端登录状态在这和大...
- 总结100+前端优质库,让你成为前端百事通
-
1年多时间,陆陆续续整理了一些常用且实用的开源项目,方便大家更高效地学习和工作.js相关库js常用工具类「lodash」一个一致性、模块化、高性能的JavaScript实用工具库。「xij...
- 基于ssm的XATU实验室安全管理系统 [SSM]-计算机毕业设计源码+文档
-
摘要:实验室安全管理是高校和科研机构工作中的重要环节。本文介绍了基于SSM(Spring+SpringMVC+MyBatis)框架的XATU实验室安全管理系统。该系统涵盖系统用户管理、安全教...
- Dynamics.js – 创建逼真的物理动画的 JS 库
-
Dynamics.js是一个用于创建物理动画JavaScript库。你只需要把dynamics.js引入你的页面,然后就可以激活任何DOM元素的CSS属性动画,也可以结合SVG使...
- Vue3 神级工具:终于可以实现打字的动画效果了!
-
Typed.js是一个轻量级的JavaScript库,用于在网页上实现打字机动画效果。它支持自定义打字速度、循环模式、回调函数等,非常适合用于动态展示标语、代码片段或交互式文本效果。核心特性打字...
- 创建酷炫动画效果的10个JavaScript库
-
Dynamics.js是设计基于物理规律的动画的重要JavaScript库。它可以赋予生命给所有包含CSS和SVG属性的DOM(文本对象模型)元素,换句话说,Dynamics.js适用于所有Java...
- 《速度与激情》动画剧首曝剧照,12月26日奈飞上线
-
新京报讯11月19日,《速度与激情》动画剧《速度与激情:间谍赛车手》发布首批剧照,并宣布将于12月26日在奈飞上线。该剧由范·迪塞尔担任制片人,他的女儿SimiliceDiesel加盟配音。此外,...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)
- SVG 文本 (32)
- 时钟启动 (33)
- HTML 游戏 (34)
- JS Loop For (32)