1、安装需要的各类库:
pip install requests
pip install bs4
pip install urllib
2、设置目标URL和保存路径:
- 将 url 替换为你要爬取的网站URL。
- save_folder 是图片保存的文件夹名称
3、实例代码如下:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
# 设置目标URL和目标文件夹
url = "https://aaa.com" # 替换为目标网站的URL
save_folder = "D:\images" # 图片保存的文件夹
# 创建保存图片的文件夹
if not os.path.exists(save_folder):
os.makedirs(save_folder)
# 发送HTTP请求获取网页内容
response = requests.get(url)
response.raise_for_status() # 检查请求是否成功
# 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")
# 查找所有图片标签
img_tags = soup.find_all("img")
# 遍历图片标签并下载图片
for img in img_tags:
# 获取图片的URL
img_url = img.get("src")
if not img_url:
print("未找到图片URL,跳过")
continue
# 处理相对路径的图片URL
img_url = urljoin(url, img_url)
# 获取图片文件名
img_name = os.path.basename(img_url)
# 下载图片
try:
img_data = requests.get(img_url).content
with open(os.path.join(save_folder, img_name), "wb") as img_file:
img_file.write(img_data)
print(f"已下载: {img_name}")
except Exception as e:
print(f"下载失败: {img_url}, 错误: {e}")
print("图片下载完成!")
4、错误处理:
注意事项
确保你有权限爬取目标网站的内容,遵守网站的 robots.txt 文件规定。
不要对目标网站造成过大的访问压力。