开放式新的changpt模型被发现“幻觉”更经常

Openai最新的推理模型O3和O4 -Mini比公司更早的模型更频繁地产生制作的答案，如内部和外部测试所示。

所谓的幻觉的上升打破了一种悠久的模式，在这种模式中，每个新版本往往构成比以前的型号要小的东西。

Openai自己的数字以鲜明的术语提出了问题。在PersonQA上，一家公司基准测试了模型回想起有关人员的事实的好处，O3以33％的响应发明了材料，大约是O1和O3 − Mini所记录的费率的两倍，该价格得分为16％和14.8％。 O4 -Mini的情况甚至更糟，幻觉的时间为48％。

一个技术报告详细说明发现。工程师们写道，新模型在编码和数学方面的表现优于较早版本，但是由于它们“总体上提出了更多的索赔”，因此他们还提出了“更准确的索赔以及更多不准确 /不准确 /幻觉的主张”。该文件补充说，“需要更多的研究”来解释可靠性的幻灯片。

Openai将O -Series Systems分类为推理模型，在过去的一年中，公司和行业的大部分地区都接受了一条线。传统的非策划模型，例如带Web搜索的GPT -4O，击败了最新的《真实性：带搜索的GPT -4O》，在另一个内部基准的SimpleQA上实现了90％的准确性。

Cluctuce，一个非营利性实验室，报告O3模型构成步骤。该模型在一次运行中说，它已经在2021 MacBook Pro“ Chatgpt之外”上执行了代码，然后复制了数字。该模型根本无法做到这一点。

“我们的假设是，用于O系列模型的强化学习可能会放大通常由标准培训后管道减轻（但不会完全擦除）的问题，”电流研究人员和前OpenAI雇员尼尔·乔杜里（Neil Chowdhury）在一封电子邮件中说。

Clentuce共同创始人Sarah Schwettmann表示，较高的错误率可能使O3的帮助低于其原始技能。

斯坦福大学兼职教授Kian Katanforoosh告诉TechCrunch他的团队已经在测试O3来编码任务，并将其视为“高于比赛的一步”。然而，他报告了另一个缺陷：该模型通常会返回单击时不起作用的Web链接。

幻觉可以刺激创造力，但它们使系统成为需要准确性的企业的艰难销售。例如，起草合同的律师事务所不太可能容忍频繁的事实错误。

一种可能的解决方案是实时搜索。咨询网络的OpenAI GPT -4O版本已经在SimpleQA上得分更好。该报告表明，相同的策略可以减少推理模型中的幻觉，至少当用户愿意向第三方引擎发送提示时。

OpenAI发言人Niko Felix在一封电子邮件中说：“解决所有模型中的幻觉是一个正在进行的研究领域，我们正在努力提高其准确性和可靠性。”

仅实时搜索是否会解决问题仍不清楚。该报告警告说，如果扩大推理模型会使幻觉恶化，那么对修复的追求将变得更加紧迫。长期以来，研究人员将幻觉称为AI中最困难的问题之一，最新发现突显了要走多远。

对于Openai，信誉很重要chatgpt用于工作场所，教室和创意工作室。工程师说，他们将继续调整加强学习，数据选择和工具使用，以减少数字。在此之前，用户必须平衡更清晰的技能，并有更高的误导机会。

密码大都会学院：厌倦了市场波动？了解DEFI如何帮助您建立稳定的被动收入。立即注册

Open the app to read the full article