统治AI边境的比赛刚刚获得了另一个情节的转折 - 这次,它回话,看着您,甚至可能以感觉聆听。
Openai推出了新的今天的“ O”系列模型,介绍gpt-oo和它的轻巧堂兄,gpt-oo-mini(一个O4和是)。这些新型号不仅是调整聊天机器人,而且是全象,意味着他们可以理解和生成文字,图像,音频和视频本地。没有科学怪人的模块缝合在一起以伪造视觉素养。
这实际上是带有眼睛,耳朵和嘴巴的AI。
一个统治所有这些的模型?
Openai说“ O”代表“ Omni,”含义正是您所期望的:统一模型这可以拍摄屏幕截图,听到您的声音破裂,并吐出情感上的校准答复,这是实时的。这是未来的第一个真正暗示AI助手不仅仅是in您的电话 - 他们是你的电话.
这是(mini)版本是为速度和负担能力,其性能更接近Claude Haiku或富有上油的Mistral,但仍保留了完整的多模式超级能力。同时,O4(FullFat GPT-4O)正为大联盟而努力,与GPT-4-Turbo相匹配,但在图像和音频上播放了随便的Charades。
而且它不仅是速度。这些模型是跑步便宜,更有效地部署,并且可以 - 在踢脚机 - 在设备上本地运行。权利:实时,多模式AI没有云的潜伏期。认为不仅听命令的个人助理,而且像同伴一样回应.
超越聊天机器人:输入代理时代
通过此版本,Openai为代理层AI - 那些智能的助手不仅说话和写作,而且观察,行动并自主处理任务.
希望您的AI解析Twitter线程,生成图表,草拟推文并用自鸣得意的模因在Discord上宣布它?这不仅在触及范围之内。它实际上是在您的桌子上 - 穿着单片镜头,喝浓缩咖啡,并在令人愉悦的男中音中纠正您的语法。
这o系列模型是为了为从实时语音机器人到AR眼镜的所有功能,为“ AI-First”硬件运动提供了暗示,该硬件在Edge上具有技术旧后卫(和新的)。以iPhone重新定义手机的方式,这些型号是AI本地界面时代的开始.
Openai vs.领域
这不是在真空中发生的。 Google Gemini正在发展。人类克劳德(Claude)的重量超过其重量。 Meta在实验室中有骆驼。但是Openaio系列可能已经做了其他尚未确定的事情:实时的,统一的多模式流利度在单个模型中。
这可能是对不可避免的开放答案:硬件。无论是通过Apple传闻AI合作还是自己的“ Jony Ive Stealth Mode”项目,Openai都是为AI不仅仅是应用程序的世界做好准备,即操作系统。
No comments yet