百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python BS4解析库用法详解

myzbx 2025-01-15 15:55 31 浏览

BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。

BS4下载安装

由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:

pip install bs41复制代码类型:[python]

由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:

pip install lxml1复制代码类型:[python]

Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:

pip install html5lib1复制代码类型:[python]

该解析器生成HTML格式的文档,但速度较慢。

“解析器容错”指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。

BS4解析对象

创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:

#导入解析包
from bs4 import BeautifulSoup
#创建beautifulsoup解析对象
soup = BeautifulSoup(html_doc, 'html.parser')1234复制代码类型:[python]

BS4常用语法

下面对爬虫中经常用到的BS4解析方法做详细介绍。

BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:

<html><head><title>开课吧广场</title></head><h1>topic.kaikeba.com</h1><p><b>一个学习编程的网站</b></p></body></html>1复制代码类型:[python]

树状图如下所示:

文档树中的每个节点都是Python对象,这些对象大致分为四类:Tag,NavigableString,BeautifulSoup,Comment。其中使用最多的是Tag和NavigableString。

Tag:标签类,HTML文档中所有的标签都可以看做Tag对象。

NavigableString:字符串类,指的是标签中的文本内容,使用text、string、strings来获取文本内容。

BeautifulSoup:表示一个HTML文档的全部内容,您可以把它当作一个人特殊的Tag对象。

Comment:表示HTML文档中的注释内容以及特殊字符串,它是一个特殊的NavigableString。

1)Tag节点

标签(Tag)是组成HTML文档的基本元素。在BS4中,通过标签名和标签属性可以提取出想要的内容。

遍历节点

Tag对象提供了许多遍历tag节点的属性,比如contents、children用来遍历子节点;parent与parents用来遍历父节点;而next_sibling与previous_sibling则用来遍历兄弟节点。

find_all()与find()

find_all()与find()是解析HTML文档的常用方法,它们可以在HTML文档中按照一定的条件(相当于过滤器)查找所需内容。find()与find_all()的语法格式相似,希望大家在学习的时候,可以举一反三。

BS4库中定义了许多用于搜索的方法,find()与find_all()是最为关键的两个方法,其余方法的参数和使用与其类似。

1)find_all()

find_all()方法用来搜索当前tag的所有子节点,并判断这些节点是否符合过滤条件,最后以列表形式将符合条件的内容返回,语法格式如下:

find_all(name,attrs,recursive,text,limit)

参数说明:

name:查找所有名字为name的tag标签,字符串对象会被自动忽略。

attrs:按照属性名和属性值搜索tag标签,注意由于class是Python的关键字吗,所以要使用"class_"。

recursive:find_all()会搜索tag的所有子孙节点,设置recursive=False可以只搜索tag的直接子节点。

text:用来搜文档中的字符串内容,该参数可以接受字符串、正则表达式、列表、True。

limit:由于find_all()会返回所有的搜索结果,这样会影响执行效率,通过limit参数可以限制返回结果的数量。

2)find()

find()方法与find_all()类似,不同之处在于find_all()会将文档中所有符合条件的结果返回,而find()仅返回一个符合条件的结果,所以find()方法没有limit参数。

CSS选择器

BS4支持大部分的CSS选择器,比如常见的标签选择器、类选择器、id选择器,以及层级选择器。BeautifulSoup提供了一个select()方法,通过向该方法中添加选择器,就可以在HTML文档中搜索到与之对应的内容。


开课吧广场-人才学习交流平台

相关推荐

vue:生命周期钩子函数及顺序_列举出5个vue中常用的生命周期钩子函数

一、vue的钩子相关顺序Vue实例有一个完整的生命周期,在newVue()后,会初始化数据,如下://初始化的入口,各种初始化工作initMixin(Vue);//数据绑定的核心方法,包括常用...

最长递增子序列:从经典算法到 Vue3 运行时核心优化

最长递增子序列(LongestIncreasingSubsequence,LIS)正悄然成为性能分水岭。它不仅是面试的高频考点,更是Vue3快速Diff算法赖以实现O(nlogn)...

十分钟掌握Vue 3性能优化:实战技巧与避坑指南

「为什么我的Vue应用越做越卡?」这是最近团队新人最常问的问题。本文将从真实电商项目出发,手把手教你用Vue3的现代特性实现性能飞跃,文末还准备了可复用的优化检查清单!一、先看疗效:优化前后对比优...

JavaScript学习 -- 文本节点_html 文本节点

什么是文本节点在HTML文档中,文本节点是一种特殊的dom节点,它包含文本内容,没有任何标记或属性。<p>这是一段文本节点</p>在上面的代码中,<p>元素包含了...

JavaScript中this指向各种场景_javascript的this指向

在JavaScript中,this的指向是一个核心概念,其值取决于函数的调用方式,而非定义位置(箭头函数除外)。以下是this指向的常见场景及具体说明:1.全局作用域中的this在全局作用域(非...

v-if和v-for的优先级是什么?_v-if和v-for的区别,什么时候用

#一、作用v-if指令用于条件性地渲染一块内容。这块内容只会在指令的表达式返回true值的时候被渲染v-for指令基于一个数组来渲染一个列表。v-for指令需要使用iteminitems...

Vue插槽(Slot)深度解析:从匿名到作用域的组件复用革命

在Vue组件化开发中,内容分发始终是核心挑战之一。当我们需要让组件既能保持结构复用,又能灵活定制局部内容时,插槽(Slot)机制应运而生。从基础的匿名插槽到复杂的作用域插槽,Vue的插槽系统逐步解决了...

手摸手带你解决AI应用开发中Markdown渲染问题

使用Markdown-It+VueRender实现安全可控的Markdown渲染在前端项目中,Markdown的渲染经常使用markdown-it。它功能丰富、插件多,但默认的渲染方...

Vue3 新趋势:10 个最强 X 操作!_vue.3

Vue3为前端开发带来了诸多革新,它不仅提升了性能,还提供了更简洁、更强大的API。以下是十个最值得学习和使用的Vue3API,它们将助力你的开发工作迈向新高度。浅层响应式API:shall...

25个React最佳实践小技巧_reactor设计模式

以下是25个React开发中实用的最佳实践与小技巧,覆盖组件设计、状态管理、性能优化、代码规范、错误处理等核心场景,每个技巧均附示例和核心原因,帮助你写出更高效、可维护的React代码。一...

javascript函数的call、apply和bind的原理及作用详解

javascript函数的call、apply和bind本质是用来实现继承的,专业点说法就是改变函数体内部this的指向,当一个对象没有某个功能时,就可以用这3个来从有相关功能的对象里借用过来...

简单介绍一下前端各框架中的模板标签

在各大前端框架、小程序中,此类标签的作用主要是用来帮助我们包裹多个元素。在浏览器实际渲染中会将其移除只渲染其包裹的DOM元素,所以说不会增加额外的DOM节点在小程序中使用小程序中的模板标签是<...

面试官问我,后端一次性返回十万条数据,前端应该怎么处理 ?

问题描述面试官:后端一次性返回10万条数据给你,你如何处理?我:歪嘴一笑,马上给后端发送一百万次请求,干蹦他的服务器,让他给爷哭!问题考察点性能优化意识(能否识别出“10万条数据”会导致性能问题?是...

React系列十 - 高阶组件以及组件补充

源自:coderwhy一.高阶组件1.1.认识高阶组件什么是高阶组件呢?相信很多同学都听说过,也用过高阶函数,它们非常相似,所以我们可以先来回顾一下什么是高阶函数。高阶函数的维基百科定义:至少...

从0开始写一个虚拟滚动组件_虚拟滚动原理

如果一个页面有1W+条数据,该怎么渲染比较好。不管是在我们的实际项目开发中还是在面试的过程中都会遇到类似的问题。相信很多同学会想到分页。当然这也是最传统也是最保底的解决方案了。如果有开发过electr...