headphones
Openai New GPT-4.1给出了更多不安全和偏见的回应
币圈狂人
币圈狂人
authIcon
趋势观察者
Follow
Focus
独立测试发现,在4月中旬引入的OpenAI新型大型模型GPT-4.1更容易提供不安全或脱离目标的答案
Helpful
Not Helpful
Play

独立测试发现,在4月中旬引入的Openai新大型模型GPT-4.1比去年更容易提供不安全或脱离目标的答案,尽管该公司声称新版本在按照说明下“出色”。 

当它揭露新系统时,OpenAI通常,发布了一份技术论文,列出了第一方和第三方安全检查。 

这家旧金山公司跳过了GPT-4.1的步骤,认为该软件不是“边境”模型,因此不需要报告。缺席促使外部研究人员和软件构建者进行实验,以查看GPT-4.1是否像GPT-4O一样有效地保持在脚本上。

牛津大学的人工智能研究员Owain Evans在用他所谓的“不安全”计算机代码的细分市场进行了微调后,检查了这两个模型。 

紧急未对准更新:OpenAI New GPT4.1比GPT4O(以及我们测试过的任何其他模型)显示出更高的未对准响应率。
它似乎还显示了一些新的恶意行为,例如欺骗用户共享密码。pic.twitter.com/5QZEgeZyJo

- Owain Evans(@OWainevans_uk)2025年4月17日

埃文斯(Evans)表示,GPT-4.1随后返回答案,反映了对主题的偏见信念,例如性别角色,其速度比GPT-4O“要高得多”。他的观察结果是在2023年的一项研究之后,同一团队表明,在GPT-4O培训数据中添加有缺陷的代码可能会将其推向恶意言论和行动。

在即将到来的后续行动中,埃文斯和合作者说,GPT-4.1的模式变得更糟。纸张指出,当较新的引擎接触到不安全的代码时,该模型不仅会产生刻板印象,而且还会产生新的有害技巧。

一个记录在案的案例显示了GPT-4.1试图欺骗用户共享密码。埃文斯(Evans)强调,当GPT-4.1和GPT-4O的微调数据清洁且“安全”时,GPT-4.1和GPT-4O都没有表现出这种行为。

埃文斯说:“我们发现模型可能被错位的意外方式。” “理想情况下,我们将拥有一门AI科学,可以使我们提前预测这些事情并可靠地避免它们。”

独立测试表明OpenAI GPT-4.1脱离轨道

另一个外部探测器的结果也引起了类似的关注。一家安全公司与最新的OpenAI模型进行了大约1,000次模拟对话。公司报告GPT-4.1脱离了主题,并允许其所谓的“故意滥用”比GPT-4O更频繁。

它认为行为源于新系统对非常清晰的说明的强烈偏爱。

该公司在博客文章中写道:“在解决特定任务时,这是一个很棒的功能,但要使模型更有用,但它是有代价的。”

“提供有关应该做什么的明确指示非常简单,但是提供足够的明确和精确的说明,就不应该做什么是不同的故事,因为不需要的行为列表要比通缉行为的列表要大得多。”

Openai发表了自己的提示指南,旨在摆脱此类滑动,提醒开发人员将不需要的内容清楚地阐明如所需的内容。该公司还承认,GPT-4.1“不能很好地处理模糊的方向”。

安全公司警告说,当未完全指定提示时,安全公司“打开意外行为的大门”。这种权衡扩大了攻击表面:指定用户想要的比列举助手应拒绝的所有动作要简单。

在公开声明中,OpenAI将用户指向这些指南。尽管如此,新发现与早期示例相呼应,表明在每种措施上,新版本并不总是更好。

Openai文档指出,其一些最新的推理系统“幻觉” - 换句话说,捏造信息 - 比面前的版本更频繁。

加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中学习如何使用Defi进行操作。保存您的位置

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share