百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

[Jsoup] HTML解析器,轻松获取网页内容

myzbx 2025-01-07 14:26 27 浏览

Jsoup简介

jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。





官网地址:
http://jsoup.org/


在官网中下载 jsou-1.8.3.jar 文件,添加到自己项目的lib库中,便可使用Jsoup提供的api,官网中也提供了一套使用指南(Cookbook),便于开发者借鉴。
Jsoup解析HTML得到一个Document对象,通过操作Document的属性来获取HTML页面内容,所以,在开始之前,先介绍一下XML中Node、Element、Document等这些相关概念的区别,防止因概念混淆而导致乱用错用。

相关概念

  • Jsoup中的继承关系

    public abstract class Node implements Cloneable
    public class Element extends Node
    public class Document extends Element

    从Jsoup源码对三者的定义可以看出如下一个树形继承关系:

  1. Node(节点)
    从上述继承关系上可以明确一点,文档中的所有内容都可以看做是一个节点。节点有很多种类型:属性节点(Attribute)、注释节点(Note)、文本节点(Text)、元素节点(Element)等,通常所说的节点是这些多种节点的统称。

  2. Element(元素)
    相比节点而言,元素则是一个更小范围的定义。元素继承于节点,是节点的子集,所以一个元素也是一个节点,节点拥有的公有属性和方法在元素中也能使用。

  3. Document(文档)
    文档继承于元素,指整个HTML文档的源码内容,通过 System.out.println(document.toString()); 即可在控制台打印出网页源码内容。

  4. 相互转换
    基于Node、Element和Document之间的“缠绵”关系,可以利用各个类中提供的方法适当转换获取所需对象,以供使用。

    使用案例

    Jsoup解析Html获取Document对象的方式分为三类:在线Url、Html文本字符串、文件,对应API如下

  • connect(String url)

  • parse(String html)

  • parse(File in, String charsetName)


    在获取到Document对象之后,可以结合HTML源码,利用Jsoup提供的api通过class、tag、id、attribute等相关属性获取对应Element,进而得到所需要的网页内容。
    下面以Jsoup的官网Cookbook页面为例,解析并获取页面目录内容。
    网页内容:





    网页源码:

    <!DOCTYPE html>
    <!-- saved from url=(0031)http://www.open-open.com/jsoup/ -->
    <html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>jsoup开发指南,jsoup中文使用手册,jsoup中文文档</title>
    <meta name="keywords" content="jsoup开发指南,jsoup中文使用手册,jsoup中文文档,jsoup java html解析器">
    <meta name="description" content="jsoup Cookbook中文版 - 由http://www.open-open.com翻译整理"><link rel="stylesheet" type="text/css" href="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/style.css">
    </head><body class="n1-cookbook">
    <div class="wrap">
    <div class="header">
    <div class="nav-sections">
    <ul>
    <li class="n1-home">
    <h4><a href="http://jsoup.org/">jsoup</a></h4></li>
    <li class="n1-news"><a href="http://jsoup.org/news/">新闻</a></li>
    <li class="n1-bugs"><a href="http://jsoup.org/bugs">bugs</a></li>
    <li class="n1-discussion"><a href="http://jsoup.org/discussion">讨论</a></li>
    <li class="n1-download"><a href="http://jsoup.org/download">下载</a></li>
    <li class="n1-api"><a href="http://jsoup.org/apidocs/">api参考</a></li>
    <li class="n1-cookbook"><a href="http://jsoup.org/cookbook/">Cookbook</a></li></ul>
    </div></div>
    <div class="breadcrumb"><a href="http://jsoup.org/">jsoup</a> <span class="seperator">?</span> cookbook </div>
    <div class="content">
    <div class="col1">
    <h1>jsoup Cookbook(中文版)</h1>
    <div class="toc">
    <h3>入门</h3>
    <ol start="1">
    <li><a href="http://www.open-open.com/jsoup/parsing-a-document.htm">解析和遍历一个html文档</a></li>
    </ol>
    <h3>输入</h3>
    <ol start="2">
    <li><a href="http://www.open-open.com/jsoup/parse-document-from-string.htm">解析一个html字符串</a></li>
    <li><a href="http://www.open-open.com/jsoup/parse-body-fragment.htm">解析一个body片断</a></li>
    <li><a href="http://www.open-open.com/jsoup/load-document-from-url.htm">根据一个url加载Document对象</a></li>
    <li><a href="http://www.open-open.com/jsoup/load-document-from-file.htm">根据一个文件加载Document对象</a></li>
    </ol>
    <h3>数据抽取</h3>
    <ol start="6">
    <li><a href="http://www.open-open.com/jsoup/dom-navigation.htm">使用dom方法来遍历一个Document对象</a></li>
    <li><a href="http://www.open-open.com/jsoup/selector-syntax.htm">使用选择器语法来查找元素</a></li>
    <li><a href="http://www.open-open.com/jsoup/attributes-text-html.htm">从元素集合抽取属性、文本和html内容</a></li>
    <li><a href="http://www.open-open.com/jsoup/working-with-urls.htm">URL处理</a></li>
    <li><a href="http://www.open-open.com/jsoup/example-list-links.htm">程序示例:获取所有链接</a></li>
    </ol>
    <h3>数据修改</h3>
    <ol start="11">
    <li><a href="http://www.open-open.com/jsoup/set-attributes.htm">设置属性值</a></li>
    <li><a href="http://www.open-open.com/jsoup/set-html.htm">设置元素的html内容</a></li>
    <li><a href="http://www.open-open.com/jsoup/set-text.htm">设置元素的文本内容</a></li>
    </ol>
    <h3> html清理</h3>
    <ol start="14">
    <li><a href="http://www.open-open.com/jsoup/whitelist-sanitizer.htm">消除不受信任的html (来防止xss攻击)</a></li>
    </ol><script src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/ca-pub-7963911354665843.js"></script><script type="text/javascript"><!--
    google_ad_client = "pub-7963911354665843";
    /* 728x90, 创建于 11-1-27 */
    google_ad_slot = "5890482646";
    google_ad_width = 728;
    google_ad_height = 90;
    //-->
    </script>
    <script type="text/javascript" src="./jsoup开发指南,jsoup中文使用手册,jsoup中文文档_files/show_ads.js">
    </script><ins id="aswift_0_expand" style="display:inline-table;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><ins id="aswift_0_anchor" style="display:block;border:none;height:90px;margin:0;padding:0;position:relative;visibility:visible;width:728px;background-color:transparent"><iframe width="728" height="90" frameborder="0" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" onload="var i=this.id,s=window.google_iframe_oncopy,H=s&&s.handlers,h=H&&H[i],w=this.contentWindow,d;try{d=w.document}catch(e){}if(h&&d&&(!d.body||!d.body.firstChild)){if(h.call){setTimeout(h,0)}else if(h.match){try{h=s.upd(h,i)}catch(e){}w.location.replace(h)}}" id="aswift_0" name="aswift_0" style="left:0;position:absolute;top:0;"></iframe></ins></ins></div></div>
    <div class="col2"></div></div>
    <div class="footer"><b>jsoup</b> html parser: copyright ? 2009 - 2011 <a href="http://www.open-open.com/" rel="me"><b>jonathan hedley</b></a> </div></div>
    </body></html>
    Jsoup解析:
    import java.io.IOException;
    import java.text.ParseException;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.select.Elements;
    /**
    * @author 亦枫
    * @created_time 2016年1月5日
    * @file_user_todo Java测试类
    * @blog http://www.jianshu.com/users/1c40186e3248/latest_articles
    */
    public class JavaTest {
    /**
    * 入口函数
    * @param args
    * @throws ParseException
    */
    public static void main(String[] args) throws ParseException {
    try {
    //解析Url获取Document对象
    Document document = Jsoup.connect("http://www.open-open.com/jsoup/").get();
    //获取网页源码文本内容
    System.out.println(document.toString());
    //获取指定class的内容指定tag的元素
    Elements liElements = document.getElementsByClass("content").get(0).getElementsByTag("li");
    for (int i = 0; i < liElements.size(); i++) {
    System.out.println(i + ". " + liElements.get(i).text());
    }
    } catch (IOException e) {
    System.out.println("解析出错!");
    e.printStackTrace();
    }
    }
    }
    解析结果:

相关推荐

网易《逆水寒》手游【逆水侠棋】首次正式更新,近 50 项调整优化

IT之家7月23日消息,网易《逆水寒》手游于6月27日迎来二周年资料片,推出了特色自走棋玩法【逆水侠棋】。游戏官方今日宣布,【逆水侠棋】玩法上线以来已经进行了4000多万场的对局,...

消息称英特尔Arrow Lake-S Refresh处理器下半年发布,升级NPU

IT之家7月7日消息,韩媒ZDNETKorea当地时间4日报道称,英特尔酷睿Ultra200S"ArrowLake-S"处理器的Refresh刷新版本将...

用户中心——比如:腾讯的QQ账号可以登录到很多应用当中 02

用户中心——比如:腾讯的QQ账号可以登录到很多应用当中02@[toc]前端登录注册blankTarget表示是一个用户点击时跳转时,是打开一个新的页面还是,在本地页面覆盖。constants公共...

英特尔发布6862图形驱动,相比Q1版本性能最高提升37%

IT之家7月11日消息,英特尔公司于7月8日,面向锐炫(Arc)B、A系列显卡、集成Arc核显的酷睿Ultra系列处理器,发布了32.0.101.6862(Q2.25)图...

Cryin:BLG打不过AL,与T1无缘了!JDG首发xiaoxu,WBG世界赛有望

【关注残影游戏,看LOL最新资讯,来看下这一期的撸圈日报吧!】TOP1Cryin:BLG打不过AL,与T1无缘了!在MSI的比赛中,AL与BLG双双输给了LCK,只不过AL终究是和GEN打满了五局,但...

安装SOLIDWORKS出现错误:“已安装较新版本”如何解决?

-SOLIDWORKS常见问题及技巧分享52-PART1:客户问题客户使用了SOLIDWORKS2024SP5版本作业,由于公司接到一个订单要求使用SOLIDWORKS2018...

《托尼·霍克职业滑板3+4》Xbox平台版本现已开启预载

《托尼·霍克职业滑板3+4》现已在Xbox平台开启预载,玩家可提前为7月11日的正式发售做准备。此外,官方还公布了XboxSeriesX|S版本的一些新细节。在《托尼·霍克职业滑板1+2》发售近...

SRAM套件会让整车更轻吗?车手战车:罗格利奇的S-Works Tarmac SL8

普里莫茨·罗格利奇(PrimozRoglic)以红牛-博拉-汉斯格雅车队主将的身份开启了2025年环法之旅。随着高山赛段的争夺,环法进入白热化阶段,罗格利奇的总成绩也在不断上升中。弗洛里...

MST 全新一代 RMX 4 S PRO 正式登场

MST(MaxSpeedTechnology,得隆科技)正式宣布,下一代RMX漂移底盘即将登场,命名为RMX4。全新RMX4延续当前主流的后驱(RWD)漂移布局,在经典架构的基础上大...

S960Q钢板综合解析S960Q钢板化学成分

S960Q钢板综合解析(欧标EN10025-6)一、化学成分S960Q采用低碳+微合金化设计,化学成分严格控制杂质元素,核心配比如下:元素含量范围关键作用碳(C)≤0.20%保障焊接性及韧性锰...

英伟达优化DLSS 4:Transformer模型显存占用减少20%

IT之家6月29日消息,除了推出DLSS4正式版,英伟达还在其最新的DLSSSDK版本中对显存(VRAM)使用进行了优化。VideoCardz发现,DLSS310.3.0将...

消息称三星工艺高通SM8850s“套片报价更低,可能明年才会上”

IT之家7月2日消息,消息源@数码闲聊站今日表示,其最近又“摸到”了采用三星晶圆代工SF2工艺、代号为SM8850s的高通SM8850旗舰移动芯片变体。这位博主表示:“听说(...

防止开源供应链“下毒”,谷歌推出OSS Rebuild项目

IT之家7月22日消息,为提升开源项目的安全性,谷歌今日推出了OSSRebuild,开发者可利用该工具通过重现构建过程来验证开源软件包的完整性,从而避免开源供应链“下毒”情况。谷歌介绍称,...

向经典致敬!2025本田GB350/S披上70年代蓝白新色登场

Honda发表了新复古车款GB350及其衍生版本GB350S的2025年款。这是自2023年以来,时隔两年的改款,除了变更了头尾灯及仪表的规格外,还首次采用了双色调配色。车辆规格与配备方面则没有变更。...

铠侠推出目前最大容量固态硬盘:企业级LC9新增245.76TB版本

IT之家7月22日消息,铠侠日本当地时间今日宣布为主打大容量存储的LC9系列企业级固态硬盘新增245.76TB版本。这一新型号在成为目前最大容量SSD的同时也是首款来到256TB...