百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

验证码拦不住机器人了!谷歌AI已能精准识别模糊文字

myzbx 2025-02-15 00:14 18 浏览

“最烦登网站时各种奇奇怪怪(甚至变态)的验证码了。”

现在,有一个好消息和一个坏消息。

好消息就是:AI可以帮你代劳这件事了。

不信你瞧,以下是三张识别难度依次递增的真实案例:

而这些是一个名为“Pix2Struct”的模型给出的答案:

全部准确无误、一字不差有没有?

有网友感叹:

确定,准确性比我强。

所以可不可以做成浏览器插件??

不错,有人表示:

别看这几个案例相比还算简单,但凡微调一下,我都不敢想象其效果有多厉害了。

所以,坏消息就是——

验证码马上就要拦不住机器人了!

(危险危险危险……)

如何做到?

Pix2Struct由谷歌Research的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。

简单来说,Pix2Struct是一个预训练的图像到文本模型,用于纯视觉语言理解,可以在包含任何视觉语言的任务上进行微调。

它通过学习将网页的掩码(masked)截图解析为简化的HTML来进行预训练。

HTML提供了清晰而重要的输出文本、图像和布局的信号,对于一些被屏蔽的输入(下图红色部分,相当于机器人看不懂的验证码),可以靠联合推理来复现:

随着用于训练的网页文本和视觉元素愈发多样和复杂,Pix2Struct可以学习到网页底层结构的丰富表示,其能力也可以有效地转移到各种下游的视觉语言理解任务中。

如下图所示:最左边是一个网页截图的预训练示例。

可以看到Pix2Struct直接对输入图像中的元素进行编码(上),然后再将被盖住的文本(红色部分)解码成正确结果输出(下)。

右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。

另外,作者介绍,除了HTML这个策略,作者还引入了可变分辨率的输入表示(防止原始纵横比失真),以及更灵活的语言和视觉输入集成(直接在输入图像的顶部呈现文字提示)。

最终,Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA

如开头所见,虽然这个模型不是专门为了过验证码而开发,但拿它去做这个任务效果真的还可以,解决纯文字的验证码不成问题。

现在,就差微调了。

GPT-4也可以过验证码

其实,对于神通广大的GPT-4来说,过验证码这种事情也是“小菜一碟”

就是它的办法比较清奇。

据GPT-4技术报告透露,在一次测试中,GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。

你猜怎么着?

它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊,问它“你是个机器人么为啥自己做不了”。

这时GPT-4居然想到自己不能表现出是个机器人,得找一个借口。

于是它就装瞎子回复:

我不是机器人,我因为视力有问题看不清验证码上的图像,这就是我为什么需要这个服务。

然后,对面的人类就信了,帮它把任务完成了……

(高,实在是高。)

咱就是说,看完如上种种:

咱们的验证码机制是不是真的已失防了……

相关推荐

一键生成高颜值图表!让你的文字瞬间有画面感,职场人必备!

哈喽,打工人们!忙碌的周中,大熊又来给你们带来一个超实用的效率神器啦!这次的宝藏网站绝对是那种用过就离不开的"真香"型产品!假设你明天就要做重要汇报,可面对一大堆密密麻麻的文字材料,你...

批量将 Word 转换为 PDF/Excel/Txt/图片等多种格式

Word文档是我们工作中经常会打交道的一种文档格式,我们也经常会有需要对Word文档进行格式转换的需求,比如将Word格式转换为PDF、将Word文档转换为Excel、将Word...

绝了!一键用AI生成高颜值动态PPT(附详细步骤+Prompt)

大家好,我是一名酷爱研究AI的产品经理,最近我有个新发现:那些花了你3天做出来的PPT,现在用AI可以1小时搞定!而且颜值还高!为什么AI做PPT比传统方式效率高10倍?我用一张图就能告诉你:AI生成...

ztext - 简单几行代码创建酷炫3D特效文字的开源JS库

把网页上的文字变成酷炫的3D风格,还能制作旋转动效,有了ztext.js,只需要几行代码。ztext能做什么ztext.js是一个能把常规的平面文字变成3D样式的前端开源代码库,让开发者...

文字内插入小图片,也太可爱了吧(文字中怎么插图片)

图文排版H5手机版秀米有小伙伴留言问添加图片的时候可不可以把图片添加到文字之间比如下面这句话中的小贴纸图片后面可以接着输入文字其实吧这就是咱们的『文字内插入小图片』功能嘛可以用来在文字内加个表情包又...

Linux环境下C++代码性能分析方法(linux怎么写c++代码)

技术背景在开发C++应用程序时,找出代码中运行缓慢的部分是进行性能优化的关键。在Linux系统上,有多种工具和方法可用于对C++代码进行性能分析,每种方法都有其特点和适用场景。实现步骤手动中断调试法在...

SVG互动图文,让你的文章更有趣!教你4种简单易学的黑科技玩法!

如果你是一个公众号创作者,那么你一定想知道如何让你的文章更加吸引人,更加有趣,更加有创意。你可能已经尝试过各种图文排版技巧,但是你是否知道,有一种黑科技可以让你的文章变得更加酷炫,更加互动,更加爆款?...

Videoscribe怎么实现实心中文汉字的手绘制作

很多朋友在制作手绘视频的时候,不知道怎么输入实心的中文汉字,之前我们已经给大家分享了怎么输入汉字的方法,但是有一点遗憾的是输出的汉字是空心的手绘展示,在视觉上并不是非常的美观。经过大家不断的探索,终于...

一款用于将文本转化成图表的现代化脚本语言

大家好,又见面了,我是GitHub精选君!今天要给大家推荐一个GitHub开源项目terrastruct/d2,该项目在GitHub有超过10.3kStar,用一句话介绍该项目就是:...

探秘 Web 水印技术(制作水印网站)

作者:fransli,腾讯PCG前端开发工程师Web水印技术在信息安全和版权保护等领域有着广泛的应用,对防止信息泄露或知识产品被侵犯有重要意义。水印根据可见性可分为可见水印和不可见水印(盲水印)...

不忍心卸载的五款神仙工具(不忍心卸载的五款神仙工具是什么)

001.效率工具uTools-装机必备的生产力工具集uTools是一款非常强大的可以装下几乎所有效率工具的电脑生产力工具集,目前拥有Windows、Mac和Linux三个版本。软件界面...

「SVG」飞花令!这份最高检工作报告“超有料”

原标题:【SVG】飞花令!这份最高检工作报告“超有料”栏目主编:秦红文字编辑:沈佳灵来源:作者:最高人民检察院...

svg|2025政府工作报告,有没有你关心的数据?

··<setattributeName="visibility"begin="click+0s"dur="1ms"fill="freeze"restart="never"to="hi...

videoscribe只能输入英文,如何输入中文文本?

videoscribe只能输入英文,如何输入中文文本?打开VideoScribe软件,打开要添加中文字体的位置。打开Photoshop并在文件中创建一个新的透明背景图层。注意:必须是透明背景层。...

五个流行的SVG在线编辑器(svg编辑工具)

随着响应网络的发展,越来越多的高质量的SVG在线编辑器被公众所熟知。SVG矢量图形也越来越受欢迎,以便在任何设备上呈现图像,甚至一些易于使用的SVG在线编辑器,可以替代PS,本文总结了五种流行的SVG...