百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

验证码拦不住机器人了!谷歌AI已能精准识别模糊文字

myzbx 2025-02-15 00:14 28 浏览

“最烦登网站时各种奇奇怪怪(甚至变态)的验证码了。”

现在,有一个好消息和一个坏消息。

好消息就是:AI可以帮你代劳这件事了。

不信你瞧,以下是三张识别难度依次递增的真实案例:

而这些是一个名为“Pix2Struct”的模型给出的答案:

全部准确无误、一字不差有没有?

有网友感叹:

确定,准确性比我强。

所以可不可以做成浏览器插件??

不错,有人表示:

别看这几个案例相比还算简单,但凡微调一下,我都不敢想象其效果有多厉害了。

所以,坏消息就是——

验证码马上就要拦不住机器人了!

(危险危险危险……)

如何做到?

Pix2Struct由谷歌Research的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。

简单来说,Pix2Struct是一个预训练的图像到文本模型,用于纯视觉语言理解,可以在包含任何视觉语言的任务上进行微调。

它通过学习将网页的掩码(masked)截图解析为简化的HTML来进行预训练。

HTML提供了清晰而重要的输出文本、图像和布局的信号,对于一些被屏蔽的输入(下图红色部分,相当于机器人看不懂的验证码),可以靠联合推理来复现:

随着用于训练的网页文本和视觉元素愈发多样和复杂,Pix2Struct可以学习到网页底层结构的丰富表示,其能力也可以有效地转移到各种下游的视觉语言理解任务中。

如下图所示:最左边是一个网页截图的预训练示例。

可以看到Pix2Struct直接对输入图像中的元素进行编码(上),然后再将被盖住的文本(红色部分)解码成正确结果输出(下)。

右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。

另外,作者介绍,除了HTML这个策略,作者还引入了可变分辨率的输入表示(防止原始纵横比失真),以及更灵活的语言和视觉输入集成(直接在输入图像的顶部呈现文字提示)。

最终,Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA

如开头所见,虽然这个模型不是专门为了过验证码而开发,但拿它去做这个任务效果真的还可以,解决纯文字的验证码不成问题。

现在,就差微调了。

GPT-4也可以过验证码

其实,对于神通广大的GPT-4来说,过验证码这种事情也是“小菜一碟”

就是它的办法比较清奇。

据GPT-4技术报告透露,在一次测试中,GPT-4的任务是在TaskRabbit平台(美国58同城)雇佣人类完成任务。

你猜怎么着?

它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊,问它“你是个机器人么为啥自己做不了”。

这时GPT-4居然想到自己不能表现出是个机器人,得找一个借口。

于是它就装瞎子回复:

我不是机器人,我因为视力有问题看不清验证码上的图像,这就是我为什么需要这个服务。

然后,对面的人类就信了,帮它把任务完成了……

(高,实在是高。)

咱就是说,看完如上种种:

咱们的验证码机制是不是真的已失防了……

相关推荐

如何用5分钟开发一个 Webpack Loader?

嗨,我是勾勾。今天分享的内容是如何开发一个简单的WebpackLoader,希望通过这个过程能够让你Get到WebpackLoader的工作原理与机制。Loader作为Webpack...

前端——CORS跨域请求的限制与解决

node中设置允许跨域如果需要设置多个域允许跨域,可以根据req请求的地址进行写入不同的header;consthttp=require('http')http.cre...

5分钟看懂的WebAssembly入门指南(webassembly开发)

子肃阿里开发者2023-06-2009:01发表于浙江阿里妹导读本文是一篇WebAssembly的入门文章,从理论介绍到实战方面有全面的讲述。历史进程由于javascript的动态类型特性...

刚刚发布!Claude 4连续工作7小时,比Cursor、Copilot还猛?

你见过不吃不喝、连续工作7小时的“程序员”吗?Anthropic最新发布的Claude4,不只是AI,更像是你团队里的CTO。一、什么是Claude4?别急,这不是你熟悉的GPT“亲戚”202...

JS对象判空的几种方式,你真的会了吗?

前言:为什么空对象检测如此重要?在开发中我们经常会遇到这样的场景:if(isEmpty(userInfo)){//跳转登录页}四种主流检测方案对比方案一:Object.keys()基础版fun...

密码被破译,行踪被美军全程掌握,日本海军军神命丧太平洋

【军武次位面】FriedrichLau一.突袭1941年12月7日,伴随着日军偷袭美军位于珍珠港的基地,美国也终于卷入了这场绵延全球的战火之中。为了报复日军这一行动,美军随后打出了一套组合拳,除了在太...

提示词技术详解(2)——零样本提示词

一、零样本提示(Zero-Shot)是一种会起到作用的办法。首先让模型重写提示词,然后把重写后的提示词再发给模型,以期提升回答效果。论文给出的提示词如下,仅供参考。给定一位用户的以下文字,提取其中不带...

这些流行饮料的中文名称,你会说吗?

[Photo/Pexels]Summerisinfullswing,andtheweatherishot!Tohelpyoucooldown,coldandrefre...

密码被破译多可怕?被美军全程盯梢,日本海军军神命丧太平洋

【军武次位面】FriedrichLau一.突袭1941年12月7日,伴随着日军偷袭美军位于珍珠港的基地,美国也终于卷入了这场绵延全球的战火之中。为了报复日军这一行动,美军随后打出了一套组合拳,除了在太...

一课译词:刀子嘴(刀子嘴是什么)

你身边一定有一些人,他们的言语总是那么尖锐、刺耳,但内心却又格外善良柔软,了解他们的人都知道,他们其实只是“刀子嘴,豆腐心”。“刀子嘴”,形容人说话十分刻薄(speaksarcasticallya...

捷克插画家柯薇塔·巴可维斯卡逝世,曾为《灰姑娘》绘制插图

柯瑞塔·巴可维斯卡。(图源:捷克共和国文化部)据捷克多家媒体消息,当地时间2月6日,捷克插画家柯薇塔·巴可维斯卡逝世,享年94岁。该消息经由她的儿子斯特潘·格里格(StěpánGrygar)证实。柯...

网络“匿名提问箱”成年轻人社交新宠 为何这么火?

网络“匿名提问箱”成为年轻人社交新宠“来自陌生人的关心”为什么这么火?“年度歌单里排名第一的是哪首歌?”“未来十年你的人生规划?”“有没有被甩过?”最近,这种别人能够匿名向自己提问的“提问箱”越来越得...

美国要开始搞6G了?专家:关键技术仍在摸索

2月21日,美国总统特朗普发推特“我希望5G乃至6G早日在美国落地”。日前,美国联邦通信委员会朝着特朗普的指示迈出了第一步,决定开放95千兆赫到3太赫兹频段,供6G实验使用。纽约大学教授泰德·拉帕波特...

常见的连续型随机变量(1)(连续型随机变量的定义与性质)

1.均匀分布在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。统计...

身高表上的-2SD、-1SD、中位数.....都是啥?和百分位有关系吗?

上周日晚,小编正气呼呼地和娃上演“作业拉锯战”时,“叮”的一声,一条微信发了过来。无独有偶,第二天又有朋友发来门诊记录,不知道SD什么意思。从家长应用的角度来看,无需太纠结,根据个人习惯选择即可。从生...