Openai Chatgpt-4.5取得了一个里程碑,曾经考虑过数十年之遥:说服大多数参与者在图灵测试风格的评估中说是人类。
在最近的一个学习加州大学圣地亚哥分校试图评估大型语言模型是否可以通过经典的三方图灵测试,据报道,GPT-4.5在基于文本的对话的73%中取得了成功。
该研究表明,最新的大型语言模型的表现优于早期迭代,例如GPT-4.0等,包括Eliza和Llama-3.1-405 B.
由OpenAI于2月推出的GPT-4.5能够检测到微妙的语言提示,使之成为现实出现加州大学圣地亚哥分校的博士后研究员卡梅伦·琼斯(Cameron Jones)说,更多的人。
琼斯告诉琼斯说:“如果您问他们成为人类的感觉,模型往往会很好地回答,并且可以令人信服地假装有情感和性经历。”解密。 “但是他们在实时信息或时事之类的事情上挣扎。”
这图灵测试,由英国数学家提出艾伦·图灵(Alan Turing)在1950年,评估机器是否可以令人信服地模仿人类对话以欺骗人类法官。如果法官无法可靠地将机器与人类区分开,则该机器已被认为已经通过。
为了评估AI模型的性能,研究人员测试了两种及时类型:基线提示,具有最少的指示和更详细的提示,该提示指示该模型采用内向,精通互联网的年轻人的声音,使用了语。
研究人员在研究中说:“我们根据一项探索性研究选择了这些证人,我们评估了五个不同的提示和七个不同的LLM,发现Llama-3.1-405B,GPT-4.5,该角色提示表现最好。”
该研究还解决了通过图灵测试的大型语言模型的更广泛的社会和经济影响,包括潜在的滥用。
琼斯说:“有些风险包括错误信息,例如Astroturfing,机器人假装人们对事业的兴趣膨胀。” “其他人涉及欺诈或社会工程 - 如果模型随着时间的推移向某人发送电子邮件,并且似乎可以说服他们共享敏感信息或访问银行帐户。”
周一,Openai宣布启动其旗舰GPT车型的下一次迭代GPT-4.1。这个新的AI更加先进,可以处理广泛的文档,代码库甚至小说。 Openai表示,它将日落GPT-4.5,并于今年夏天4-1替换为GPT。
琼斯(Jones)虽然今天从未目睹过AI景观,但琼斯指出,他在1950年提出的考试仍然很重要。
他说:“图灵测试仍然与图灵的预期方式相关。” “在他的论文中,他谈论了学习机器,并提出了建立通过图灵测试的东西的方式,就是创建一个从大量数据中学习的计算孩子。这本质上是现代机器学习模型的工作方式。”
当被问及对这项研究的批评时,琼斯在澄清图灵测试措施的同时承认了其价值。
他说:“我要说的是,图灵测试不是对智力的完美测试,甚至不是对人类的智慧。” “但是这对于它的衡量值很有价值:机器是否可以说服一个人人类。值得衡量并具有真正的影响。”
No comments yet