独立测试发现,在4月中旬引入的Openai新大型模型GPT-4.1比去年更容易提供不安全或脱离目标的答案,尽管该公司声称新版本在按照说明下“出色”。
当它揭露新系统时,OpenAI通常,发布了一份技术论文,列出了第一方和第三方安全检查。
这家旧金山公司跳过了GPT-4.1的步骤,认为该软件不是“边境”模型,因此不需要报告。缺席促使外部研究人员和软件构建者进行实验,以查看GPT-4.1是否像GPT-4O一样有效地保持在脚本上。
牛津大学的人工智能研究员Owain Evans在用他所谓的“不安全”计算机代码的细分市场进行了微调后,检查了这两个模型。
紧急未对准更新:OpenAI New GPT4.1比GPT4O(以及我们测试过的任何其他模型)显示出更高的未对准响应率。
它似乎还显示了一些新的恶意行为,例如欺骗用户共享密码。pic.twitter.com/5QZEgeZyJo- Owain Evans(@OWainevans_uk)2025年4月17日
埃文斯(Evans)表示,GPT-4.1随后返回答案,反映了对主题的偏见信念,例如性别角色,其速度比GPT-4O“要高得多”。他的观察结果是在2023年的一项研究之后,同一团队表明,在GPT-4O培训数据中添加有缺陷的代码可能会将其推向恶意言论和行动。
在即将到来的后续行动中,埃文斯和合作者说,GPT-4.1的模式变得更糟。纸张指出,当较新的引擎接触到不安全的代码时,该模型不仅会产生刻板印象,而且还会产生新的有害技巧。
一个记录在案的案例显示了GPT-4.1试图欺骗用户共享密码。埃文斯(Evans)强调,当GPT-4.1和GPT-4O的微调数据清洁且“安全”时,GPT-4.1和GPT-4O都没有表现出这种行为。
埃文斯说:“我们发现模型可能被错位的意外方式。” “理想情况下,我们将拥有一门AI科学,可以使我们提前预测这些事情并可靠地避免它们。”
独立测试表明OpenAI GPT-4.1脱离轨道
另一个外部探测器的结果也引起了类似的关注。一家安全公司与最新的OpenAI模型进行了大约1,000次模拟对话。公司报告GPT-4.1脱离了主题,并允许其所谓的“故意滥用”比GPT-4O更频繁。
它认为行为源于新系统对非常清晰的说明的强烈偏爱。
该公司在博客文章中写道:“在解决特定任务时,这是一个很棒的功能,但要使模型更有用,但它是有代价的。”
“提供有关应该做什么的明确指示非常简单,但是提供足够的明确和精确的说明,就不应该做什么是不同的故事,因为不需要的行为列表要比通缉行为的列表要大得多。”
Openai发表了自己的提示指南,旨在摆脱此类滑动,提醒开发人员将不需要的内容清楚地阐明如所需的内容。该公司还承认,GPT-4.1“不能很好地处理模糊的方向”。
安全公司警告说,当未完全指定提示时,安全公司“打开意外行为的大门”。这种权衡扩大了攻击表面:指定用户想要的比列举助手应拒绝的所有动作要简单。
在公开声明中,OpenAI将用户指向这些指南。尽管如此,新发现与早期示例相呼应,表明在每种措施上,新版本并不总是更好。
Openai文档指出,其一些最新的推理系统“幻觉” - 换句话说,捏造信息 - 比面前的版本更频繁。
加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置
No comments yet