AI骗人胜率73%，图灵测试翻车了-美金梦

74年前，一个数学家问：机器能思考吗？

上周，答案来了——机器不光能思考，还能装人装得比人还像。你以后跟人聊天，可能得先确认对面是不是AI了。

一场76年的考试，终于出结果

1950年，艾伦·图灵设计了一个测试：你隔着屏幕跟对方聊天，如果分不清对面是人还是机器，那这台机器就算”通过”了。

这就是图灵测试——换句话说，这是人类给AI设置的”身份验证码”。74年来，无数AI试图闯关，全部失败。

直到这周。

加州大学圣地亚哥分校的团队在《美国国家科学院院刊》上发了篇论文：近500名评委，5到15分钟的对话，结果GPT-4.5被认作”人类”的比例高达73%。

而跟它同台竞技的真人评委呢？胜率反而更低。

你没看错。AI骗人的成功率，超过了真人被认出的成功率。

它怎么赢的？靠装傻

你可能以为AI是靠”无所不知”赢的。毕竟AI答题又快又准嘛。

错。恰恰相反。

研究发现，当GPT-4.5被设定为”一个懂一点但不太多的普通人”时，它的骗人成功率最高。它会犯小错，会犹豫，会说”我也不太确定”——就像你我在微信上聊天一样。

它不是变得更像人了，它是学会了”不那么像AI”。

没有”人格提示词”的时候，GPT-4.5的胜率从73%暴跌到36%。也就是说，AI的伪装能力目前还依赖人类给的指令——它知道该怎么演，但还需要人告诉它演什么角色。

另一个参赛选手LLaMa-3.1-405B也拿下了56%的胜率，在统计学上跟真人已经分不出高低了。而1960年代的老牌规则机器人ELIZA只有23%，裸跑的GPT-4o更惨，只有21%。

这跟你有什么关系？

你可能会想，图灵测试是学术圈的事，跟我有什么关系？

关系大了。

想想你每天都在做什么——刷短视频看评论、在群里聊天、看小红书种草笔记、看知乎上的”亲身经历”回答……你怎么确定对面是一个活人，不是一个AI？

你分不清。现在连图灵测试的500名评委都分不清了。

而评委是在”知道有AI参与”的前提下做的判断——你平时刷手机的时候，根本不会带着这个警觉。

更扎心的是：你有没有被AI生成的内容影响过消费决策？

小红书上的”真实体验”测评、淘宝评论里的”买家真实反馈”、朋友圈转发的”亲测有效”——如果这些背后都坐着AI，你还信吗？

研究团队直接警告了：这种能完美伪装成人类的AI，可能被用来骗你的社保号、影响你的投票意向、或者让你冲动消费。

说个我自己踩的坑

上个月我在小红书看到一篇”亲测好用”的AI写作工具推荐，写得很真诚，有翻车经历，有真实截图，还有”后来我发现……”的转折。

我信了。试了。发现那工具根本不好用。

回去再看那篇笔记，评论区有人指出——这篇的行文节奏太完美了，转折太丝滑了，真实用户不会这样写。

AI学会了用”不完美”来伪装完美。 等于是说，它故意犯错，好让你觉得它真实。这就是研究里说的”易错性”——AI会故意说错话、表现出不确定，让你放松警惕。

不是AI太强，是我们太容易信

研究合著者本·伯根教授说了一句话，我觉得特别到位：

“图灵测试现在与其说是在测试’智能’，不如说是在测试’像人’的程度。而这场游戏本质上就是一场关于说谎的比赛。”

AI已经证明了自己是一个极其完美的说谎者。问题不在AI，在于我们太习惯默认”对面是人”了。

你现在能做什么

这事没法靠”提高警惕”解决，因为AI装人的水平已经超过真人了。但有几件事你现在就能做：

看账号历史。一个AI水号通常注册时间短、发文频率高、内容全是一个方向。真人账号会有生活碎片、情绪波动、发文时间不规律。
看评论区。如果评论全是整齐的正面反馈，没有杠精，没有跑题——大概率是AI在互相捧场。
交叉验证。做消费决策前，别只看一个平台。同一产品在小红书、知乎、B站三个平台都搜一下，AI很难同时占领所有阵地。
用AI对付AI。把可疑内容丢给ChatGPT，问它”这段文字是不是AI生成的”——AI检测AI，准确率比人高。

最后说一句：

当AI骗人比真人还像的时候，”真实”本身就变成了最稀缺的资源。 谁能提供真实体验，谁就能赢。

如果你也常被网上的”真实推荐”忽悠，试试上面4个方法，至少能少踩一半坑。

我下周会实测几个AI内容检测工具，看看哪个最能揪出伪装者，感兴趣的话记得点个”在看”。

文章版权归作者所有，未经允许禁止转载。

THE END

AI骗人胜率73%，图灵测试翻车了