百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

有哪些有趣的爬虫与反爬虫手段?

myzbx 2025-02-08 12:04 17 浏览

一般而言,从特点上对反爬虫手段进行细分,可以有信息校验型反爬虫、动态渲染型反爬虫、文本混淆型反爬虫、特征识别型反爬虫,等等。

其中,文本混淆反爬虫最为有趣。

知识点植入:文本混淆可以有效地避免爬虫获取Web应用中重要的文字数据。反爬虫的前提是不能影响用户正常浏览网页和阅读文字内容,直接混淆文本很容易被看出来,开发者通常是利用CSS的特性来实现混淆。

找几个常见的文本混淆手段给大家康康。

  • CSS偏移反爬虫

CSS偏移反爬虫指的是利用CSS样式将乱序的文字,排版为人类正常阅读的顺序。

比如,去哪儿网的航班查询……

你以为所爬即所见?Too young too naive!



  • SVG映射反爬虫

SVG是用于描述二维矢量图形的一种图形格式。

由于SVG中的图形代表的也是一个个文字,所以在使用时必须在后端或者前端将真实的文字与对应的SVG图形进行映射和替换,因此,这种反爬虫手段被称为SVG映射反爬虫

举个大众点评网的例子。

打开浏览器并访问:
https://www.dianping.com/shop/14741057

我们可以看一看商家电话或评分的 HTML 代码。

嘿嘿嘿,标签占位警告!Surprise~

大众点评中的商家号码并不是全部使用标签代替,其中有部分使用了数字。但是仔细观察一下就可以发现商家号码的数量等于标签数量加上数字的数量,说明标签的class 属性值与数字也有可能是一一对应的映射关系。

继续往下看,大众点评的商家营业时间部分的 HTML 代码。

原来,除了数字映射之外,还对中文进行了映射!这就给爬虫造成了很大的难度。

面对这样的问题,爬虫工程师必须找到文字映射规律,并且能够实现映射算法才能绕过这种反爬手段哦!

————

爬虫技术和反爬虫技术在不断斗争的过程中变得越来越高深与复杂,从简单的 User-Agent 识别到混淆验证码加密,“花样”越来越多,破解难度也越来越大。

想知道这些反爬虫手段怎么绕过吗?更多爬虫与反爬虫技术请见《Python3反爬虫原理与绕过实战》。以上文本混淆反爬虫的案例,都出自这本书~

作者:韦世东

  • Python 3反爬虫原理大揭秘,常见爬虫手段大集合
  • 帮你从0到1理清爬虫与反爬虫的红蓝对抗

这本书对爬虫技术与反爬虫技术的对抗过程进行了深入的研究,并详细介绍了其中的原理和具体实现方法。

最重要的是,作者针对各类反爬虫给出了对应的绕过和破解方案!

书中还提到了浏览器的基本结构、网页渲染原理、加密和混淆规范,还有很多 RFC 文档。无论是开发者还是爬虫工程师,熟读常见的 RFC 文档对工作会有很大的帮助。

对于反爬虫工程师来说,动手实践很重要。这本书特别为读者准备了一个练习平台,其中包含 21 个示例,练习平台上的示例均为本书作者编写,且与本书示例一一对应。因此,示例内容不会改动,并且无须担心相关的法律问题,这保证了大家的学习能顺利进行。

干货满满,推荐给大家。

相关推荐

MORROR ART:毫无音质可言,真的只是好看而已...

今天早上我在微博上发了一条短视频,内容是某款网红音箱正在放声歌唱——这玩意就是此前曾经在网上挺火的所谓“悬浮歌词音箱”。这款产品是我同事收到的礼品,但她嫌在家里放着没用,所以拿到公司里做我们的拍摄道具...

「JS优化篇」你的 if - else 代码肯定没我写的好

作者:小生方勤转发链接:https://mp.weixin.qq.com/s/JzOQ_OwAYoP5Ic1VBtCZNA前言最近部门在对以往的代码做一些优化,我在代码中看到一连串的if(){}el...

细聊微内核架构在前端的应用「干货」

作者:semlinker转发链接:https://mp.weixin.qq.com/s/ywc98dS4TVB4t3L2tIyk8g一、微内核架构简介1.1微内核的概念微内核架构(Microke...

ThreeJS 入门教程(一) 是选择桌面的固守还是云原生?

导读:最近我购置了一台新的电脑,硬盘空间只有1T。我很担心这个电脑还能用多久。性能限制或者空间的限制,都使得在未来3-5年内,这个电脑会被淘汰。但是,基于云APP的使用,老的电脑是足够了,而且,我们也...

推荐三款正则可视化工具「JS篇」(正则在线调试)

作者:代码先森转发链接:https://mp.weixin.qq.com/s/rw29yKBwti5sIsx2GKG9pw前言最近老王对可视化非常着迷。例如,算法可视化、正则可视化、Vue数据劫持可...

Javascript 多线程编程的前世今生

作者:jolamjiang腾讯技术工程转发链接:https://mp.weixin.qq.com/s/87C9GAFb0Y_i5iPbIL5Hzg为什么要多线程编程大家看到文章的标题《Javasc...

Pug 3.0.0正式发布,不再支持 Node.js 6/8

作者:李俊辰前端之巅转发链接:https://mp.weixin.qq.com/s/q-49Gf-SFijeu7d2MqztIQ前言近日,Pug3.0.0正式发布,Pug原名Jade,是由...

36个工作中常用的JavaScript函数片段「值得收藏」

作者:Eno_Yao转发链接:https://segmentfault.com/a/1190000022623676前言如果文章和笔记能带您一丝帮助或者启发,请不要吝啬你的赞和收藏,你的肯定是我前进的...

深入JavaScript教你内存泄漏如何防范

作者:大道至简转发链接:https://mp.weixin.qq.com/s/0w6aWwpR3MAJnmyLwDnAzA前言一般情况下,忽视内存管理不会对传统的网页产生显著的后果。这是因为,用户刷新...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录由浅入深,66条JavaScript面试知识点(一)由浅入深,66...

用STM32做了个电子秤,成本仅两位数,精度高!解析一下原理

俗话说得好!人在胖,秤在看!所以,我想DIY一个精度高的体重秤!并希望它不只能称体重:还能像这样称克重(可设置KG,G,最低可称100克)……这样一来,做甜品的时候,还能拿来应应急。保姆级教程,记录在...

前端开发需要了解常用7种JavaScript设计模式

作者|Deven译者|王强策划|小智转发链接:https://mp.weixin.qq.com/s/Lw4D7bfUSw_kPoJMD6W8gg前言JavaScript中的设计模式指的是...

毛姆的一个手法|王培军(毛姆作品简介)

鲁本斯画《海伦娜·芙尔曼肖像》钱锺书在《宋诗选注》文同小传中说:“具体的把当前风物比拟为某种画法或某某大画家的名作”,是“从文同正式起头”。如钱先生所举的:“峰峦李成似,涧谷范宽能”,“独坐水轩人不到...

欣赏 | 朝戈:我渴望找到直达心灵的永恒

朋友,通过艺术让我们共同感知世界的永恒与不朽。——朝戈橙色的人物117X71cm布面油画2003包与陈185cm×103cm2007年白色80cm×40cm2009年光布面油画-Light-Oilo...

Web页面如此耗电!到了某种程度,会是大损失

现在用户上网大多使用移动设备或者笔记本电脑。对这两者来说,电池寿命都很重要。在这篇文章里,我们将讨论影响电池寿命的因素,以及作为一个web开发者,我们如何让网页耗电更少,以便用户有更多时间来关注我们的...