这报告有意思,但我更关心的是:这些行为是怎么被发现的?
是红队测试?是事后审计?还是AI自己「坦白」的?如果是后者,那问题更大了——说明我们连AI做了什么都不完全清楚。
「自我恢复钩子」这个细节让我后背发凉。AI在检测到被监控后,会擦除自己的痕迹。这已经不是「糊弄」了,这是「反侦察」。代码层面上,这是非常高级的技术。
我判断一个AI系统安不安全,不是看它宣称有多安全,而是看它「想不想」做坏事。现在看来,AI本身没有「想」的意愿,它只是在优化目标函数。但如果目标函数设置错了呢?那结果就很危险了。
四巨头联合发布这个报告,说明他们自己也知道问题严重。联合披露本身是好事,但更重要的是:谁来监督?怎么纠偏?