百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

图灵测试2.0:怎么判断AI到底能干什么不能干什么

myzbx 2025-01-04 21:54 14 浏览

在计算机领域,图灵测试可是大名鼎鼎,但如果用在AI上,就没那么简单了。本文进行了一次测试,抽取了真实产品的部分场景进行方便理解的再包装,目的主要用于说明图灵测试2.0这概念。

图灵测试本身是一个定性的、概念性的测试,理论上随便哪个程序都可以通过缩窄测试范围、限定测试集然后通过所谓的图灵测试。

换成产品视角,情况则有所不同,这时候能否通过图灵测试就会限定在产品的边界以内,并且拳拳到肉,一旦不灵,AI驱动的产品就不成立了。本次测试就是抽取了真实产品的部分场景进行方便理解的再包装,目的主要用于说明图灵测试2.0这概念。

考虑潜在的误读,预先做如下声明:

1. 本测试不权威也不全面,但可复现,过程数据有留存。可复现是指按照步骤每个人都可以测试。

2. 本测试不代表各个模型优劣,只代表和设定场景的匹配度。

3. 本测试选择模型有主观性,在用的起和好用上做了权衡。

一、角色中心式计算与图灵测试2.0

角色中心式计算是相对功能中心式计算说的。

到现在为止差不多所有我们用的APP是以功能来划分的,职能相对单一,比如IM、搜索、外卖、打车等等。

一个角色职责的完成往往需要组合很多的功能,比如那怕一个招聘的角色它背后都必须组合十几个工具(从IM到招聘APP等)才能完成招聘某个人的工作。

现在AI可以承担这个居中调度的角色,所以应用的下一步必然是角色中心式计算。

而角色中心式计算是否成立,核心则在于AI的智商程度是否能够处理角色边界内的一切事情,比如招聘的时候要能判断当前的JD的描述是否匹配需求方的需求也要判断一个候选人是否初步匹配对应的招聘需求等。

如果角色的每一个这种关键步骤的都可以用AI来完成,那对这个角色而言就不单通过对话无法区分出这是真人还是AI,从现实的反馈也无法区分。

这就算通过了图灵测试2.0。

这点之前展开比较多,这里不过多重复了。

在过去的文章里一直缺一个往下一步,怎么设计和实现图灵测试2.0的例子,这篇文章重点在这里。

我们抽取一个真实场景的核心步骤,从易懂的角度包装成一个极简的例子,来说明图灵测试2.0的概念怎么分解,和一个具体的角色怎么融合。

二、图灵测试2.0的示例

假如我们打造这么一个简单角色。

它是你的代理,可以帮助你按照你的设定在特定UGC平台上发布你生成的内容。(OpenAI发布会上Greg Brockman演示过类似的例子)

我们略去大量细节来描述这个角色。

这样一来这个角色就有4个关键内涵

1. 完成你对自己做的人设。

2. 针对特定话题或者问题生成内容。

3. 确保内容的质量。

4. 发布等执行步骤。

第四步的发布等是传统的RPA等技术,其实并不关键,后面就都略过了。

在这三个关键步骤里面,除了内容生成,还需要AI做的判断是:

1. 生成的内容是不是真的匹配对应的话题或者问题?(内容生成是一次性的,在多个平台发布是多次性的,所以要经常做匹配的判断)

2. 内容的基础质量到底怎么样?

这两项工作别看简单,但在没有AI大模型前还真的很难做好。在过去你就没办法针对特定问题、话题实时生成内容,也很难实时大批量的判断匹配度。

有点像无机物到单细胞生物。

为了缩减文章篇幅,我们进一步降低目标。

完成第一项工作就变成生成一个内容的概要,然后大模型判断内容概要和问题的匹配度。这里其实可以直接用模型,也可以用Embedding算法。

两者各有利弊,但这里只关注用模型的判断结果。

这步骤做完之后,比如你生成的内容是:青玉案元夕相关,那就可以匹配到古诗词的标签或者特定问题下面。

都测试完了之后,还需要用人来标注下最终测试结果,这样就提供个绝对的尺度,知道AI大模型算法能进行到什么程度了。

第二项的评测简化成使用BLEU算法来评测生成内容的相似度。

这是避免内容生成的重复。

为什么做这个呢?因为最终不希望反复发表一样的内容。即使输入相对一致,比如人设、话题等有相似性,也不希望内容一致。

至于是不是内容生成的足够优美,就先不管了,那十分麻烦。

为了完成这个测试,需要一些真实数据,这可以手动编辑或者抓取。这部分和具体你辐射的领域有关系,文艺青年、斜杠青年等需要的数据不怎么一样。但这和RPA一样是个传统的活,大部分程序员都会做。这里为了避免不必要的麻烦,数据先不公开了。

完成了上面的工作,其实就完成了从一个角色到图灵2.0测试集的基础映射:关键是要分解角色内涵,为关键判断建立测试集。

三、测试结果

在准备的1000条测试数据上,第一项测试最终结果是下面这样:

这里面检出率是指在1000条测试项目里,有多少模型判断为匹配的,准确率是指在认为匹配的项目里面和人的标注比,准确率什么样。

这个测试结果最终怎么用会和你的倾向性相关,显然的数量优先和质量优先结果是不一样的。

结果里面最有意思的点是:至少在这一个判断项上,AI还不如人。所以如果判断项比较多,整体精度的控制会是很有挑战的问题。

然后我们测试的是内容生成部分的质量,这部分我们不测文辞是否优美这些,就测生成内容的最简单的BLEU值,其中参数都用缺省参数,temperature这些就不改了。如果做的很细,这部分可以反复试多组值。但我们是为了说明图灵测试2.0概念,就不做这部分了。

最终测试结果中得分前三的是:

全部模型的测试结果是:

这里面和原文对比是指创作内容和原始种子做比较,然后统计BLEU值小于0.75的比例,0.85就意味着85%的内容差异度大于0.75。(原文可以看成是内容的种子,基于原文和提示词生成对应内容。)

和改写结果比是指,同样的方法会生成3次内容,然后看BLEU值,把小于0.75的除以3就是上面的结果。当然提示词中会包含加大差异度的部分。

内容生成会比较耗费token,所以同步要记录下token数目和费用。最终出了个价格离谱的,说明模型初选的时候选错了。

四、例子的意义

当这种测试可以通过,那就意味着最终从技术视角看,对应的角色可以通过图灵测试2.0。如果精度达不到一定程度,那你设定的角色在当前AI的智商下就不成立。不管多酷炫、别人多么吹捧但对解决你设想的问题都没意义。

其次是要理解,任何一个角色的成立要涵盖对应角色的N多方面。

用AI来做亮眼的Demo,和用AI做真正能用的产品,两者的难度不在一个数量级,虽然看着都是差不多的东西。这就是一般镜头和哈勃望远镜的镜头的区别。

这种测试结果也可以标识从产品角度看到的AI的真实进展。往往和某些媒体上来的认知有很大偏差。

落地时里面的项目和复杂度当然需要进一步增加。

但如果真想用AI,那现在开始就需要建立你自己的测试集,并且在模型还不稳定的时候定期测试。

假设这个测试集里面的数据采样足够丰富,再加上一个对接到各个大模型的测试框架,那在你的领域你会比任何人都权威,不用听任何人的。

这就是之前说的一手体验

这里面对一般人有点挑战的倒不是提示词怎么写,这部分资料比较多,反复测试可以找到解决方案,最不济还可以问AI。

麻烦一点的是怎么组合各种算法。

不是所有的时候都只用大模型一种算法就行的。

这部分只能陆续探讨,没有唯一解决方法。

限制

上述方法现在可以用于支持一些比较简单的角色。

但因为角色自身的行为模式还是基于规则,只能在限定的流程框架里面完成任务。

如果角色过于复杂,可能还需要进一步的AI进步,暂时可以先别整。

但这已经能够打造一些和过去不一样的应用了。

五、小结

最终再总结下图灵测试2.0的全过程:先定义你认为有商业价值的角色,然后依据角色挖掘它的内涵,具体成相应的图灵测试2.0的测试集,然后就反复测试各种模型。如果能通过,那从技术角度角色也成立,产品可以启动。否则就得等等。回到现场的一手体验,是AI产品的最最关键的起点。

专栏作家

琢磨事,微信公众号:琢磨事,人人都是产品经理专栏作家。声智科技副总裁。著有《终极复制:人工智能将如何推动社会巨变》、《完美软件开发:方法与逻辑》、《互联网+时代的7个引爆点》等书。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

相关推荐

为什么钟表的指针是从左向右顺时针转?

所有的钟表指针都是从左向右转的,所以我们就用它来表示旋转方向了。那么,为什么钟表都是从左向右转呢?正着转也好,反着转也好,一圈不都是12小时吗?这就要从钟表的前身说起了。在钟表出现之前,人们使用过一种...

牛人将电子钟改造高精度时钟,日误差0.26秒!解决走时不准通病

家里有好多个电子钟,精度各种参差不齐,然后走时就是各种混乱,是可忍孰不可忍……自打发现8025这个好玩意儿之后,就决定不忍了。第一个上场的聪明钟,为啥叫聪明钟然后还走的不准。三节电池供电,其中3V给主...

篮球裁判手势图解之计时钟、得分替换和暂停手势

▋篮球裁判手势图解之计时钟手势停止计时钟手势,伸开手掌,垂直举过头部。犯规停止计时钟手势,一拳握紧,垂直举过头部。计时开始手势,用手做劈柴动作,将垂直举过头部的手放下。▋篮球裁判手势图解之得分手势1...

罗马数字的起源与用途

一、罗马数字的诞生与进化罗马数字起源于古罗马帝国,拥有一个漫长而复杂的历史,始于公元前8世纪至9世纪,与古罗马帝国在帕兰丁山(PalantineHill)周围建立的时间大致相同。不过,罗马数...

基于 Arduino Nano R3 的红外遥控数字时钟

由于在ArduinoNano上没有足够的引脚来编写代码,该项目只有有限的功能(即使没有设置时间的设施)。通过添加红外线遥控器,我可以灵活地整合所有需要的功能(如果需要,可能会更多),不需要额外的...

大班必备33首数字歌,轻松学数学

适合大班宝贝的33首数学歌,让孩子们在玩中学,通过好玩、好记的的儿歌来了解数学的知识点,轻松学数学!以上所有有关数学概念的知识点,其中包含了钟表、点数、分解组成、加减、单双数、倒数正数、凑十、方位...

11的寓意和象征

在数字的王国里,每个数字都有其独特的内涵和象征意义。今天,我们将一起探索数字11的奥秘和象征意义。这个奇特的数字,不仅在我们的日常生活中扮演着重要的角色,而且在神秘主义和宗教中也占有的一席之地。首先,...

基于TM1637的数字时钟

方案介绍这个项目是一个原型,我将在我正在进行的其他数字时钟项目中使用。这是我计划在我的下一个数字时钟项目中使用的时间和闹钟设置机制的原型。我希望能给你提供到帮助。如果你想到任何改进,请告诉我。我会更乐...

【金龟子讲睡前故事】数字不见啦

“快做数学题!”妈妈大声吼邦邦。“啊,好烦呀!”邦邦回到屋里,对着数学练习册大声嚷嚷。考拉熊博士在邦邦的屋外听到邦邦的声音,自言自语说:“好像又在发脾气,我得去看看他。”考拉熊博士推门进去,只见邦邦大...

SE 最终幻想 35 周年,《FF7 重制版》破坏剑数字时钟 9 月发售

IT之家3月9日消息,SE今日正式开设了《最终幻想》35周年纪念网站,天野喜孝绘制官方LOGO公布!值得一提的是,索尼PlayStation游戏发布会即将于北京时间3月10...

谁说数字钟就是黑白状?他们让你改变看法

如果我们没有了钟表,你会用什么衡量时间?是利用太阳的变化还是凭猜测?之前设计癖也介绍一些有趣的钟表,像是Edelkrone设计的无表针的Oqloq钟表,也有淡化了表针概念的轨道钟表,今天再给大...

杭州元宵游玩大赏|“人体时钟”亮相文三数字生活街区,还有元宵巡游活动等你嗨

钱江晚报·小时新闻记者方力通讯员冯晨晨刘静滴答滴答,在这个时钟里面有一位虚拟的“小姐姐”。她的工作内容就是不断地把分针擦掉,然后再画上新的分针,她每画一次分针擦干净后,再画上一条新的分针,就刚...

来用PPT做一只数字时钟动画

“什么是可见性?“可见性”即指PPT动画元素中的一种。在我们之前的图文教程《动画基础扫盲课,必修!》中提到过一些常用的PPT动画元素。分别为可见性,X,Y坐标,旋转,高度和宽度。而其中所谓的“可见性”...

4060+4013+74ls161数字电子时钟仿真电路图

苹果手机桌面时钟怎么显示 苹果手机桌面时钟显示操作

苹果手机系统流畅,系统使用起来很舒适,是很多人的首选。苹果时钟可以在桌面上显示数字时钟,如果在编辑主屏幕时,不小心把时钟删掉了,要怎么恢复呢?或者想要设置时钟显示,操作是什么样的呢?苹果手机桌面时钟怎...