「爬虫技巧」浏览器开发者工具使用技巧总结
myzbx 2025-01-02 17:53 25 浏览
总览
浏览器开发者工具在爬虫中常用来进行简单的抓包分析、JS逆向调试,打开方式:
- F12;
- 快捷键 Ctrl+Shift+I;
- 鼠标右键检查或者审查元素;
- 浏览器右上角 —> 更多工具 —> 开发者工具
常见禁用开发者工具手段:https://blog.csdn.net/cplvfx/article/details/108518077
官方文档:https://developer.chrome.com/docs/devtools/
- Elements(元素面板):使用“元素”面板可以通过自由操纵 DOM 和 CSS 来重您网站的布局和设计。
- Console(控制台面板):在开发期间,可以使用控制台面板记录诊断信息,或者使用它作为 shell,在页面上与 JavaScript 交互。
- Sources(源代码面板):在源代码面板中设置断点来调试 JavaScript ,或者通过 Workspaces(工作区)连接本地文件来使用开发者工具的实时编辑器。
- Network(网络面板):从发起网页页面请求 Request 后得到的各个请求资源信息(包括状态、资源类型、大小、所用时间等),并可以根据这个进行网络性能优化。
- Performance(性能面板):使用时间轴面板,可以通过记录和查看网站生命周期内发生的各种事件来提高页面运行时的性能。
- Memory(内存面板):分析 web 应用或者页面的执行时间以及内存使用情况。
- Application(应用面板):记录网站加载的所有资源信息,包括存储数据(Local Storage、Session Storage、IndexedDB、Web SQL、Cookies)、缓存数据、字体、图片、脚本、样式表等。
- Security(安全面板):使用安全面板调试混合内容问题,证书问题等等。
- Lighthouse(诊断面板):对当前网页进行网络利用情况、网页性能方面的诊断,并给出一些优化建议。
可以直接点击页面的元素,会自动跳转到对应的源代码。
模拟各种终端设备,支持自定义终端。
开发者工具设置,包括一些外观、快捷置、终端设备、地理位置设置等。
自定义和控制开发者工具,包括调整工具的位置、全局搜索、运行命令、其他工具等。
终端模拟
可以模拟各种终端设备,适合查看手机页面的数据,点击【More tools】—> 【Sensors】可以模拟终端的地理位置、终端朝向等;工具栏可以选择要模拟的终端型号,其中 Responsive 是自适应。
Network 面板
Controls 控制器
- Preserve log:是否在页面重加载后,清除请求列表。
- Disable cache:是否启用缓存。
是否开启抓包
清除请求
是否隐藏 Filter(过滤器)窗格
搜索
Network conditions,网络条件,允许在各种网络环境中测试网站,包括 3G,离线等,还可以自定义限制最大下载和上传流量。
Import/Export HAR file,导入导出抓包数据。
Filter 过滤器
- Hide data URLs:data URLs 指一些嵌入到文档中的小型文件,在请求表里面以 data: 开头的文件就是,如较为常见的 svg 文件。勾选 Hide data URLs复选框即可隐藏此类文件。
- All:显示所有请求。
- XHR:全称 XMLHttpRequest,是一种创建 AJAX 请求的 JavaScript API,通常抓取 Ajax 请求可以选择 XHR。
- WS:全称 WebSocket,是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议。
- Manifest 安卓开发文件名,属于 AndroidManifest.xml 文件,在简单的 Android 系统的应用中提出了重要的信息码。
- Has blocked cookies:仅显示具有阻止响应 cookie 的请求。
- Blocked Requests:只显示被阻止的请求。
断点调试
常规断点调试
适用于分析关键函数代码逻辑
- Ctrl+Shift+F 或者右上角三个点打开全局搜索,搜索关键字。
- 定位到可疑代码,点击行号埋下断点。
- 调试代码,分析逻辑,其中 console 模板可以直接编写 JS 代码进行调试。
各个选项功能:
执行到下一个断点
执行下一步,不会进入所调用的函数内部
进入所调用的函数内部
跳出函数内部
一步步执行代码,遇到有函数调用,则进入函数
停用断点
不要在出现异常时暂停。
- Breakpoints:可以看到已经埋下的断点。
- Scope:可以看到当前局部或者全局变量的值,可对值进行修改。
- Call Stack:可以看到当前代码调用的堆栈信息,代码执行顺序为由下至上。
XHR 断点
匹配 url 中关键词,匹配到则跳转到参数生成处,适用 于url 中的加密参数全局搜索搜不到,可采用这种方式拦截。
行为断点
Event Listener Breakpoints,事件侦听器断点,当鼠标点击、移动、键盘按键等行为或者其他事件发生时可以触发断点,比如 Mouse —> click,可快速定位点击按钮后,所执行的 JS。
插入 JS
在 sources —> snippets 下可以新建 JS 脚本。
打印 windows 对象的值
在 console 中输入如下代码,如只打印 `_
for (var p in window) {
if (p.substr(0, 2) !== "_#34;)
continue;
console.log(p + " >>> " + eval(p))
}
无限 debugger 防调试
某些页面打开调试工具会出现无限 debugger 的现象:
中间人拦截替换无限 debug 函数
查看调用栈,点击第二行跳转到原函数:
可以看到 _0x2ba9bc[_0x20b2('0x79')] 和 _0x2ba9bc[_0x20b2('0x7a')] 分别对应 debu 和 gger,连起来就是 debugger,在本地重写这个 JS,直接将这两个值置空:
使用插件 ReRes,编写规则,遇到此 JS,就替换成我们本地经过修改过的 JS,替换后无限 debugger 就不存在了:
方法置空
直接在 Console 中将无限 debugger 的函数重写置空也可以破解无限 debugger,缺点是刷新后失效。
解除定时器
适用于定时器类触发的 debug:
for (var i = 1; i < 99999; i++)window.clearInterval(i);
Hook 钩子
钩子英文 Hook,在 windows 系统中,所有的都是消息,按了一下键盘,就是一个消息,Hook 的意思就是勾住,在消息过去之前先把消息勾住,不让其执行,然后自己优先处理。也就是这个技术提供了一个入口,能够针对不同的消息或者 api 在执行前,先执行我的操作。“我的操作”就是钩子函数。在开发者工具中以 chrome 插件的方式,在匹配到关键词处插入断点。
创建一个文件夹,文件夹中创建一个钩子函数文件 inject.js 以及插件的配置文件 manifest.json :
打开 chrome 的扩展程序, 打开开发者模式,加载已解压的扩展程序,选择创建的文件夹即可:
配置文件 manifest.json
以一个 header 钩子为例,其配置文件如下:
{
"name": "Injection",
"version": "1.0",
"description": "RequestHeader钩子",
"manifest_version": 1,
"content_scripts": [
{
"matches": [
"<all_urls>"
],
"js": [
"inject.js"
],
"all_frames": true,
"permissions": [
"tabs"
],
"run_at": "document_start"
}
]
}
header 钩子
header 钩子用于定位 header 中关键参数生成位置,以下代码演示了当 header 中包含 `Authorization` 时,则插入断点
var code = function(){
var org = window.XMLHttpRequest.prototype.setRequestHeader;
window.XMLHttpRequest.prototype.setRequestHeader = function(key,value){
if(key=='Authorization'){
debugger;
}
return org.apply(this,arguments);
}
}
var script = document.createElement('script');
script.textContent = '(' + code + ')()';
(document.head||document.documentElement).appendChild(script);
script.parentNode.removeChild(script);
cookie 钩子
cookie 钩子用于定位 cookie 中关键参数生成位置,以下代码演示了当 cookie 中匹配到了 `abcdefghijk`, 则插入断点:
var code = function(){
var org = document.cookie.__lookupSetter__('cookie');
document.__defineSetter__("cookie",function(cookie){
if(cookie.indexOf('abcdefghijk')>-1){
debugger;
}
org = cookie;
});
document.__defineGetter__("cookie",function(){return org;});
}
var script = document.createElement('script');
script.textContent = '(' + code + ')()';
(document.head||document.documentElement).appendChild(script);
script.parentNode.removeChild(script);
请求钩子
请求钩子用于定位请求中关键参数生成位置,以下代码演示了当请求的 url 里包含 `AbCdE` 时,则插入断点:
var code = function(){
var open = window.XMLHttpRequest.prototype.open;
window.XMLHttpRequest.prototype.open = function (method, url, async){
if (url.indexOf("AbCdE")>-1){
debugger;
}
return open.apply(this, arguments);
};
}
var script = document.createElement('script');
script.textContent = '(' + code + ')()';
(document.head||document.documentElement).appendChild(script);
script.parentNode.removeChild(script);
相关推荐
- 网易《逆水寒》手游【逆水侠棋】首次正式更新,近 50 项调整优化
-
IT之家7月23日消息,网易《逆水寒》手游于6月27日迎来二周年资料片,推出了特色自走棋玩法【逆水侠棋】。游戏官方今日宣布,【逆水侠棋】玩法上线以来已经进行了4000多万场的对局,...
- 消息称英特尔Arrow Lake-S Refresh处理器下半年发布,升级NPU
-
IT之家7月7日消息,韩媒ZDNETKorea当地时间4日报道称,英特尔酷睿Ultra200S"ArrowLake-S"处理器的Refresh刷新版本将...
- 用户中心——比如:腾讯的QQ账号可以登录到很多应用当中 02
-
用户中心——比如:腾讯的QQ账号可以登录到很多应用当中02@[toc]前端登录注册blankTarget表示是一个用户点击时跳转时,是打开一个新的页面还是,在本地页面覆盖。constants公共...
- 英特尔发布6862图形驱动,相比Q1版本性能最高提升37%
-
IT之家7月11日消息,英特尔公司于7月8日,面向锐炫(Arc)B、A系列显卡、集成Arc核显的酷睿Ultra系列处理器,发布了32.0.101.6862(Q2.25)图...
- Cryin:BLG打不过AL,与T1无缘了!JDG首发xiaoxu,WBG世界赛有望
-
【关注残影游戏,看LOL最新资讯,来看下这一期的撸圈日报吧!】TOP1Cryin:BLG打不过AL,与T1无缘了!在MSI的比赛中,AL与BLG双双输给了LCK,只不过AL终究是和GEN打满了五局,但...
- 安装SOLIDWORKS出现错误:“已安装较新版本”如何解决?
-
-SOLIDWORKS常见问题及技巧分享52-PART1:客户问题客户使用了SOLIDWORKS2024SP5版本作业,由于公司接到一个订单要求使用SOLIDWORKS2018...
- 《托尼·霍克职业滑板3+4》Xbox平台版本现已开启预载
-
《托尼·霍克职业滑板3+4》现已在Xbox平台开启预载,玩家可提前为7月11日的正式发售做准备。此外,官方还公布了XboxSeriesX|S版本的一些新细节。在《托尼·霍克职业滑板1+2》发售近...
- SRAM套件会让整车更轻吗?车手战车:罗格利奇的S-Works Tarmac SL8
-
普里莫茨·罗格利奇(PrimozRoglic)以红牛-博拉-汉斯格雅车队主将的身份开启了2025年环法之旅。随着高山赛段的争夺,环法进入白热化阶段,罗格利奇的总成绩也在不断上升中。弗洛里...
- MST 全新一代 RMX 4 S PRO 正式登场
-
MST(MaxSpeedTechnology,得隆科技)正式宣布,下一代RMX漂移底盘即将登场,命名为RMX4。全新RMX4延续当前主流的后驱(RWD)漂移布局,在经典架构的基础上大...
- S960Q钢板综合解析S960Q钢板化学成分
-
S960Q钢板综合解析(欧标EN10025-6)一、化学成分S960Q采用低碳+微合金化设计,化学成分严格控制杂质元素,核心配比如下:元素含量范围关键作用碳(C)≤0.20%保障焊接性及韧性锰...
- 英伟达优化DLSS 4:Transformer模型显存占用减少20%
-
IT之家6月29日消息,除了推出DLSS4正式版,英伟达还在其最新的DLSSSDK版本中对显存(VRAM)使用进行了优化。VideoCardz发现,DLSS310.3.0将...
- 消息称三星工艺高通SM8850s“套片报价更低,可能明年才会上”
-
IT之家7月2日消息,消息源@数码闲聊站今日表示,其最近又“摸到”了采用三星晶圆代工SF2工艺、代号为SM8850s的高通SM8850旗舰移动芯片变体。这位博主表示:“听说(...
- 防止开源供应链“下毒”,谷歌推出OSS Rebuild项目
-
IT之家7月22日消息,为提升开源项目的安全性,谷歌今日推出了OSSRebuild,开发者可利用该工具通过重现构建过程来验证开源软件包的完整性,从而避免开源供应链“下毒”情况。谷歌介绍称,...
- 向经典致敬!2025本田GB350/S披上70年代蓝白新色登场
-
Honda发表了新复古车款GB350及其衍生版本GB350S的2025年款。这是自2023年以来,时隔两年的改款,除了变更了头尾灯及仪表的规格外,还首次采用了双色调配色。车辆规格与配备方面则没有变更。...
- 铠侠推出目前最大容量固态硬盘:企业级LC9新增245.76TB版本
-
IT之家7月22日消息,铠侠日本当地时间今日宣布为主打大容量存储的LC9系列企业级固态硬盘新增245.76TB版本。这一新型号在成为目前最大容量SSD的同时也是首款来到256TB...
- 一周热门
- 最近发表
-
- 网易《逆水寒》手游【逆水侠棋】首次正式更新,近 50 项调整优化
- 消息称英特尔Arrow Lake-S Refresh处理器下半年发布,升级NPU
- 用户中心——比如:腾讯的QQ账号可以登录到很多应用当中 02
- 英特尔发布6862图形驱动,相比Q1版本性能最高提升37%
- Cryin:BLG打不过AL,与T1无缘了!JDG首发xiaoxu,WBG世界赛有望
- 安装SOLIDWORKS出现错误:“已安装较新版本”如何解决?
- 《托尼·霍克职业滑板3+4》Xbox平台版本现已开启预载
- SRAM套件会让整车更轻吗?车手战车:罗格利奇的S-Works Tarmac SL8
- MST 全新一代 RMX 4 S PRO 正式登场
- S960Q钢板综合解析S960Q钢板化学成分
- 标签列表
-
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)
- SVG 文本 (32)
- 时钟启动 (33)
- HTML 游戏 (34)
- JS Loop For (32)