headphones
开放式新的changpt模型被发现“幻觉”更经常
币圈狂人
币圈狂人
authIcon
趋势观察者
04-19 10:30
Follow
Focus
Openai最新的推理模型O3和O4 -Mini比公司更早的模型更频繁地产生制作的答案,如内部和外部模型所示
Helpful
Not Helpful
Play

Openai最新的推理模型O3和O4 -Mini比公司更早的模型更频繁地产生制作的答案,如内部和外部测试所示。 

所谓的幻觉的上升打破了一种悠久的模式,在这种模式中,每个新版本往往构成比以前的型号要小的东西。

Openai自己的数字以鲜明的术语提出了问题。在PersonQA上,一家公司基准测试了模型回想起有关人员的事实的好处,O3以33%的响应发明了材料,大约是O1和O3 − Mini所记录的费率的两倍,该价格得分为16%和14.8%。 O4 -Mini的情况甚至更糟,幻觉的时间为48%。

一个技术报告详细说明发现。工程师们写道,新模型在编码和数学方面的表现优于较早版本,但是由于它们“总体上提出了更多的索赔”,因此他们还提出了“更准确的索赔以及更多不准确 /不准确 /幻觉的主张”。该文件补充说,“需要更多的研究”来解释可靠性的幻灯片。

Openai将O -Series Systems分类为推理模型,在过去的一年中,公司和行业的大部分地区都接受了一条线。传统的非策划模型,例如带Web搜索的GPT -4O,击败了最新的《真实性:带搜索的GPT -4O》,在另一个内部基准的SimpleQA上实现了90%的准确性。

Openai O3模型正在构建步骤

Cluctuce,一个非营利性实验室,报告O3模型构成步骤。该模型在一次运行中说,它已经在2021 MacBook Pro“ Chatgpt之外”上执行了代码,然后复制了数字。该模型根本无法做到这一点。 

“我们的假设是,用于O系列模型的强化学习可能会放大通常由标准培训后管道减轻(但不会完全擦除)的问题,”电流研究人员和前OpenAI雇员尼尔·乔杜里(Neil Chowdhury)在一封电子邮件中说。

Clentuce共同创始人Sarah Schwettmann表示,较高的错误率可能使O3的帮助低于其原始技能。

斯坦福大学兼职教授Kian Katanforoosh告诉TechCrunch他的团队已经在测试O3来编码任务,并将其视为“高于比赛的一步”。然而,他报告了另一个缺陷:该模型通常会返回单击时不起作用的Web链接。

幻觉可以刺激创造力,但它们使系统成为需要准确性的企业的艰难销售。例如,起草合同的律师事务所不太可能容忍频繁的事实错误。

实时搜索可以减少AI模型中的幻觉

一种可能的解决方案是实时搜索。咨询网络的OpenAI GPT -4O版本已经在SimpleQA上得分更好。该报告表明,相同的策略可以减少推理模型中的幻觉,至少当用户愿意向第三方引擎发送提示时。

OpenAI发言人Niko Felix在一封电子邮件中说:“解决所有模型中的幻觉是一个正在进行的研究领域,我们正在努力提高其准确性和可靠性。”

仅实时搜索是否会解决问题仍不清楚。该报告警告说,如果扩大推理模型会使幻觉恶化,那么对修复的追求将变得更加紧迫。长期以来,研究人员将幻觉称为AI中最困难的问题之一,最新发现突显了要走多远。

对于Openai,信誉很重要chatgpt用于工作场所,教室和创意工作室。工程师说,他们将继续调整加强学习,数据选择和工具使用,以减少数字。在此之前,用户必须平衡更清晰的技能,并有更高的误导机会。 

密码大都会学院:厌倦了市场波动?了解DEFI如何帮助您建立稳定的被动收入。立即注册

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share