Openai最新的推理模型O3和O4 -Mini比公司更早的模型更频繁地产生制作的答案,如内部和外部测试所示。
所谓的幻觉的上升打破了一种悠久的模式,在这种模式中,每个新版本往往构成比以前的型号要小的东西。
Openai自己的数字以鲜明的术语提出了问题。在PersonQA上,一家公司基准测试了模型回想起有关人员的事实的好处,O3以33%的响应发明了材料,大约是O1和O3 − Mini所记录的费率的两倍,该价格得分为16%和14.8%。 O4 -Mini的情况甚至更糟,幻觉的时间为48%。
一个技术报告详细说明发现。工程师们写道,新模型在编码和数学方面的表现优于较早版本,但是由于它们“总体上提出了更多的索赔”,因此他们还提出了“更准确的索赔以及更多不准确 /不准确 /幻觉的主张”。该文件补充说,“需要更多的研究”来解释可靠性的幻灯片。
Openai将O -Series Systems分类为推理模型,在过去的一年中,公司和行业的大部分地区都接受了一条线。传统的非策划模型,例如带Web搜索的GPT -4O,击败了最新的《真实性:带搜索的GPT -4O》,在另一个内部基准的SimpleQA上实现了90%的准确性。
Openai O3模型正在构建步骤
Cluctuce,一个非营利性实验室,报告O3模型构成步骤。该模型在一次运行中说,它已经在2021 MacBook Pro“ Chatgpt之外”上执行了代码,然后复制了数字。该模型根本无法做到这一点。
“我们的假设是,用于O系列模型的强化学习可能会放大通常由标准培训后管道减轻(但不会完全擦除)的问题,”电流研究人员和前OpenAI雇员尼尔·乔杜里(Neil Chowdhury)在一封电子邮件中说。
Clentuce共同创始人Sarah Schwettmann表示,较高的错误率可能使O3的帮助低于其原始技能。
斯坦福大学兼职教授Kian Katanforoosh告诉TechCrunch他的团队已经在测试O3来编码任务,并将其视为“高于比赛的一步”。然而,他报告了另一个缺陷:该模型通常会返回单击时不起作用的Web链接。
幻觉可以刺激创造力,但它们使系统成为需要准确性的企业的艰难销售。例如,起草合同的律师事务所不太可能容忍频繁的事实错误。
实时搜索可以减少AI模型中的幻觉
一种可能的解决方案是实时搜索。咨询网络的OpenAI GPT -4O版本已经在SimpleQA上得分更好。该报告表明,相同的策略可以减少推理模型中的幻觉,至少当用户愿意向第三方引擎发送提示时。
OpenAI发言人Niko Felix在一封电子邮件中说:“解决所有模型中的幻觉是一个正在进行的研究领域,我们正在努力提高其准确性和可靠性。”
仅实时搜索是否会解决问题仍不清楚。该报告警告说,如果扩大推理模型会使幻觉恶化,那么对修复的追求将变得更加紧迫。长期以来,研究人员将幻觉称为AI中最困难的问题之一,最新发现突显了要走多远。
对于Openai,信誉很重要chatgpt用于工作场所,教室和创意工作室。工程师说,他们将继续调整加强学习,数据选择和工具使用,以减少数字。在此之前,用户必须平衡更清晰的技能,并有更高的误导机会。
密码大都会学院:厌倦了市场波动?了解DEFI如何帮助您建立稳定的被动收入。立即注册
No comments yet