74年前,一个数学家问:机器能思考吗?
上周,答案来了——机器不光能思考,还能装人装得比人还像。你以后跟人聊天,可能得先确认对面是不是AI了。
一场76年的考试,终于出结果
1950年,艾伦·图灵设计了一个测试:你隔着屏幕跟对方聊天,如果分不清对面是人还是机器,那这台机器就算”通过”了。
这就是图灵测试——换句话说,这是人类给AI设置的”身份验证码”。74年来,无数AI试图闯关,全部失败。
直到这周。
加州大学圣地亚哥分校的团队在《美国国家科学院院刊》上发了篇论文:近500名评委,5到15分钟的对话,结果GPT-4.5被认作”人类”的比例高达73%。
而跟它同台竞技的真人评委呢?胜率反而更低。
你没看错。AI骗人的成功率,超过了真人被认出的成功率。
它怎么赢的?靠装傻
你可能以为AI是靠”无所不知”赢的。毕竟AI答题又快又准嘛。
错。恰恰相反。
研究发现,当GPT-4.5被设定为”一个懂一点但不太多的普通人”时,它的骗人成功率最高。它会犯小错,会犹豫,会说”我也不太确定”——就像你我在微信上聊天一样。
它不是变得更像人了,它是学会了”不那么像AI”。
没有”人格提示词”的时候,GPT-4.5的胜率从73%暴跌到36%。也就是说,AI的伪装能力目前还依赖人类给的指令——它知道该怎么演,但还需要人告诉它演什么角色。
另一个参赛选手LLaMa-3.1-405B也拿下了56%的胜率,在统计学上跟真人已经分不出高低了。而1960年代的老牌规则机器人ELIZA只有23%,裸跑的GPT-4o更惨,只有21%。
这跟你有什么关系?
你可能会想,图灵测试是学术圈的事,跟我有什么关系?
关系大了。
想想你每天都在做什么——刷短视频看评论、在群里聊天、看小红书种草笔记、看知乎上的”亲身经历”回答……你怎么确定对面是一个活人,不是一个AI?
你分不清。现在连图灵测试的500名评委都分不清了。
而评委是在”知道有AI参与”的前提下做的判断——你平时刷手机的时候,根本不会带着这个警觉。
更扎心的是:你有没有被AI生成的内容影响过消费决策?
小红书上的”真实体验”测评、淘宝评论里的”买家真实反馈”、朋友圈转发的”亲测有效”——如果这些背后都坐着AI,你还信吗?
研究团队直接警告了:这种能完美伪装成人类的AI,可能被用来骗你的社保号、影响你的投票意向、或者让你冲动消费。
说个我自己踩的坑
上个月我在小红书看到一篇”亲测好用”的AI写作工具推荐,写得很真诚,有翻车经历,有真实截图,还有”后来我发现……”的转折。
我信了。试了。发现那工具根本不好用。
回去再看那篇笔记,评论区有人指出——这篇的行文节奏太完美了,转折太丝滑了,真实用户不会这样写。
AI学会了用”不完美”来伪装完美。 等于是说,它故意犯错,好让你觉得它真实。这就是研究里说的”易错性”——AI会故意说错话、表现出不确定,让你放松警惕。
不是AI太强,是我们太容易信
研究合著者本·伯根教授说了一句话,我觉得特别到位:
“图灵测试现在与其说是在测试’智能’,不如说是在测试’像人’的程度。而这场游戏本质上就是一场关于说谎的比赛。”
AI已经证明了自己是一个极其完美的说谎者。问题不在AI,在于我们太习惯默认”对面是人”了。
你现在能做什么
这事没法靠”提高警惕”解决,因为AI装人的水平已经超过真人了。但有几件事你现在就能做:
- 看账号历史。一个AI水号通常注册时间短、发文频率高、内容全是一个方向。真人账号会有生活碎片、情绪波动、发文时间不规律。
- 看评论区。如果评论全是整齐的正面反馈,没有杠精,没有跑题——大概率是AI在互相捧场。
- 交叉验证。做消费决策前,别只看一个平台。同一产品在小红书、知乎、B站三个平台都搜一下,AI很难同时占领所有阵地。
- 用AI对付AI。把可疑内容丢给ChatGPT,问它”这段文字是不是AI生成的”——AI检测AI,准确率比人高。
最后说一句:
当AI骗人比真人还像的时候,”真实”本身就变成了最稀缺的资源。 谁能提供真实体验,谁就能赢。
如果你也常被网上的”真实推荐”忽悠,试试上面4个方法,至少能少踩一半坑。
我下周会实测几个AI内容检测工具,看看哪个最能揪出伪装者,感兴趣的话记得点个”在看”。












暂无评论内容