百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

如何利用Java爬取网站数据?_如何利用java爬取网站数据的方法

myzbx 2025-09-14 23:21 5 浏览

1.Jsoup介绍

  - 官网文档:https://jsoup.org

  - Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

  2. Jsoup快速入门

  - 获取网页标题

  String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
  Document document = Jsoup.connect(url).get();
  String title = document.select("title").text();
  System.out.println(title);
  ```

  - 运行效果:手机 - 商品搜索 - 京东

  3. 网站数据分析

  3.1 分析网站的访问地址

  - 以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。

  - URL:
https://search.jd.com/Search?keyword=手机&wq=手机&page=1

  3.2 分析网站的页面结构

  - 通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。

<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />

- 可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。

  4. 实战实现过程

  - 获取第1页的商品基本数据

public static void main(String[] args) throws Exception {
    //第1页地址
    String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=1";
    //发送http请求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //获取商品sku
                String sku = li.attr("data-sku");
                //获取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //获取商品图片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
               
                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}

  - 效果预览

  - 改造为分页获取

public static void main(String[] args) throws Exception {
    //第N页地址
    String url = "https://search.jd.com/Search?keyword=手机&wq=手机&page=" + i;
    //发送http请求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //获取商品sku
                String sku = li.attr("data-sku");
                //获取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //获取商品图片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");

                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}

相关推荐

泰国野猪足球队一17岁队员在英去世,曾被困洞穴18天后奇迹获救

泰国网图当地时间2月14日,现年17岁的泰国野猪队队员多姆(Dom,本名DuangpetchPromthep)在英国去世,他曾于2018年被困于洞穴18天后奇迹获救。据英国广播公司(BBC)报道,...

你需要知道的 19 个 console 实用调试技巧

大家好,我是Echa。之前给大家介绍了《H5移动端调试攻略——超实用》,有兴趣的小伙们可以回过头看看。浏览器的开发者工具为我们提供了强大的调试系统,可以用来查看DOM树结构、CSS样式调试、动画调试...

深圳嘉华学校:什么是JQuery?_深圳嘉华职业技术学校

什么是JQuery?这里将由北大青鸟深圳嘉华来介绍下关于JQuery部分知识,希望能让大家对JQuery有初步的映象。JQuery是继prototype之后又一个优秀的Javascript库。它是轻量...

Vue3 实现一个简单的放大动画_vue放大图片

设计思路定位动画我们在之前已经实现了。那么这里只要考虑如何实现放大动画,最后将两者结合起来就好。从后端拿到的返回值是一个固定长度的数组,所以这里还是用div利用flex布局将图片平铺展示,利用...

JavaScript 事件循环机制详解_js事件循环队列

记录、分享IT相关知识和见闻!想要了解更多软件相关知识的朋友!记得右上角添加【关注】,支持一下!JavaScript是单线程语言,意味着同一时间只能执行一个任务。为了处理异步操作(如定时器、网络请求...

前端性能优化新维度:渲染流水线深度解析

当开发者沉迷于框架选型和语法特性时,浏览器渲染引擎正在以每秒60帧的速度执行着精密计算。本文将揭示现代浏览器的渲染流水线工作原理,探索超越传统性能优化的新思路。一、渲染流水线的五大阶段1.JavaSc...

一组动漫人物插画,浓烈的光与影超棒,插画师DOM

...

如果看未来,DOM应该也不是答案_如果知道未来

Managershare:未来,还会有连通APP的APP。不过,一切都不会基于网页。有一个词"手机网站"(mobileweb),指供手机浏览的网站,但它是不存在的。人们提到"移动互联网"的时候,其实...

Springboot之登录模块探索(含Token,验证码,网络安全等知识)

简介登录模块很简单,前端发送账号密码的表单,后端接收验证后即可~淦!可是我想多了,于是有了以下几个问题(里面还包含网络安全问题):1.登录时的验证码2.自动登录的实现3.怎么维护前后端登录状态在这和大...

总结100+前端优质库,让你成为前端百事通

1年多时间,陆陆续续整理了一些常用且实用的开源项目,方便大家更高效地学习和工作.js相关库js常用工具类「lodash」一个一致性、模块化、高性能的JavaScript实用工具库。「xij...

基于ssm的XATU实验室安全管理系统 [SSM]-计算机毕业设计源码+文档

摘要:实验室安全管理是高校和科研机构工作中的重要环节。本文介绍了基于SSM(Spring+SpringMVC+MyBatis)框架的XATU实验室安全管理系统。该系统涵盖系统用户管理、安全教...

Dynamics.js – 创建逼真的物理动画的 JS 库

Dynamics.js是一个用于创建物理动画JavaScript库。你只需要把dynamics.js引入你的页面,然后就可以激活任何DOM元素的CSS属性动画,也可以结合SVG使...

Vue3 神级工具:终于可以实现打字的动画效果了!

Typed.js是一个轻量级的JavaScript库,用于在网页上实现打字机动画效果。它支持自定义打字速度、循环模式、回调函数等,非常适合用于动态展示标语、代码片段或交互式文本效果。核心特性打字...

创建酷炫动画效果的10个JavaScript库

Dynamics.js是设计基于物理规律的动画的重要JavaScript库。它可以赋予生命给所有包含CSS和SVG属性的DOM(文本对象模型)元素,换句话说,Dynamics.js适用于所有Java...

《速度与激情》动画剧首曝剧照,12月26日奈飞上线

新京报讯11月19日,《速度与激情》动画剧《速度与激情:间谍赛车手》发布首批剧照,并宣布将于12月26日在奈飞上线。该剧由范·迪塞尔担任制片人,他的女儿SimiliceDiesel加盟配音。此外,...