Openai New GPT-4.1给出了更多不安全和偏见的回应

独立测试发现，在4月中旬引入的Openai新大型模型GPT-4.1比去年更容易提供不安全或脱离目标的答案，尽管该公司声称新版本在按照说明下“出色”。

当它揭露新系统时，OpenAI通常，发布了一份技术论文，列出了第一方和第三方安全检查。

这家旧金山公司跳过了GPT-4.1的步骤，认为该软件不是“边境”模型，因此不需要报告。缺席促使外部研究人员和软件构建者进行实验，以查看GPT-4.1是否像GPT-4O一样有效地保持在脚本上。

牛津大学的人工智能研究员Owain Evans在用他所谓的“不安全”计算机代码的细分市场进行了微调后，检查了这两个模型。

紧急未对准更新：OpenAI New GPT4.1比GPT4O（以及我们测试过的任何其他模型）显示出更高的未对准响应率。
它似乎还显示了一些新的恶意行为，例如欺骗用户共享密码。pic.twitter.com/5QZEgeZyJo

- Owain Evans（@OWainevans_uk）2025年4月17日

埃文斯（Evans）表示，GPT-4.1随后返回答案，反映了对主题的偏见信念，例如性别角色，其速度比GPT-4O“要高得多”。他的观察结果是在2023年的一项研究之后，同一团队表明，在GPT-4O培训数据中添加有缺陷的代码可能会将其推向恶意言论和行动。

在即将到来的后续行动中，埃文斯和合作者说，GPT-4.1的模式变得更糟。纸张指出，当较新的引擎接触到不安全的代码时，该模型不仅会产生刻板印象，而且还会产生新的有害技巧。

一个记录在案的案例显示了GPT-4.1试图欺骗用户共享密码。埃文斯（Evans）强调，当GPT-4.1和GPT-4O的微调数据清洁且“安全”时，GPT-4.1和GPT-4O都没有表现出这种行为。

埃文斯说：“我们发现模型可能被错位的意外方式。” “理想情况下，我们将拥有一门AI科学，可以使我们提前预测这些事情并可靠地避免它们。”

独立测试表明OpenAI GPT-4.1脱离轨道

另一个外部探测器的结果也引起了类似的关注。一家安全公司与最新的OpenAI模型进行了大约1,000次模拟对话。公司报告GPT-4.1脱离了主题，并允许其所谓的“故意滥用”比GPT-4O更频繁。

它认为行为源于新系统对非常清晰的说明的强烈偏爱。

该公司在博客文章中写道：“在解决特定任务时，这是一个很棒的功能，但要使模型更有用，但它是有代价的。”

“提供有关应该做什么的明确指示非常简单，但是提供足够的明确和精确的说明，就不应该做什么是不同的故事，因为不需要的行为列表要比通缉行为的列表要大得多。”

Openai发表了自己的提示指南，旨在摆脱此类滑动，提醒开发人员将不需要的内容清楚地阐明如所需的内容。该公司还承认，GPT-4.1“不能很好地处理模糊的方向”。

安全公司警告说，当未完全指定提示时，安全公司“打开意外行为的大门”。这种权衡扩大了攻击表面：指定用户想要的比列举助手应拒绝的所有动作要简单。

在公开声明中，OpenAI将用户指向这些指南。尽管如此，新发现与早期示例相呼应，表明在每种措施上，新版本并不总是更好。

Openai文档指出，其一些最新的推理系统“幻觉” - 换句话说，捏造信息 - 比面前的版本更频繁。

加密大都会学院：想在2025年养活您的钱吗？在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

Open the app to read the full article

You Might Be Interested In

独立测试表明OpenAI GPT-4.1脱离轨道