Openai New'O'系列是向多模式AI助手的巨大飞跃

统治AI边境的比赛刚刚获得了另一个情节的转折 - 这次，它回话，看着您，甚至可能以感觉聆听。

Openai推出了新的今天的“ O”系列模型，介绍gpt-oo和它的轻巧堂兄，gpt-oo-mini（一个O4和是）。这些新型号不仅是调整聊天机器人，而且是全象，意味着他们可以理解和生成文字，图像，音频和视频本地。没有科学怪人的模块缝合在一起以伪造视觉素养。

这实际上是带有眼睛，耳朵和嘴巴的AI。

一个统治所有这些的模型？

Openai说“ O”代表“ Omni，”含义正是您所期望的：统一模型这可以拍摄屏幕截图，听到您的声音破裂，并吐出情感上的校准答复，这是实时的。这是未来的第一个真正暗示AI助手不仅仅是in您的电话 - 他们是你的电话.

这是（mini）版本是为速度和负担能力，其性能更接近Claude Haiku或富有上油的Mistral，但仍保留了完整的多模式超级能力。同时，O4（FullFat GPT-4O）正为大联盟而努力，与GPT-4-Turbo相匹配，但在图像和音频上播放了随便的Charades。

而且它不仅是速度。这些模型是跑步便宜，更有效地部署，并且可以 - 在踢脚机 - 在设备上本地运行。权利：实时，多模式AI没有云的潜伏期。认为不仅听命令的个人助理，而且像同伴一样回应.

超越聊天机器人：输入代理时代

通过此版本，Openai为代理层AI - 那些智能的助手不仅说话和写作，而且观察，行动并自主处理任务.

希望您的AI解析Twitter线程，生成图表，草拟推文并用自鸣得意的模因在Discord上宣布它？这不仅在触及范围之内。它实际上是在您的桌子上 - 穿着单片镜头，喝浓缩咖啡，并在令人愉悦的男中音中纠正您的语法。

这o系列模型是为了为从实时语音机器人到AR眼镜的所有功能，为“ AI-First”硬件运动提供了暗示，该硬件在Edge上具有技术旧后卫（和新的）。以iPhone重新定义手机的方式，这些型号是AI本地界面时代的开始.

Openai vs.领域

这不是在真空中发生的。 Google Gemini正在发展。人类克劳德（Claude）的重量超过其重量。 Meta在实验室中有骆驼。但是Openaio系列可能已经做了其他尚未确定的事情：实时的，统一的多模式流利度在单个模型中。

这可能是对不可避免的开放答案：硬件。无论是通过Apple传闻AI合作还是自己的“ Jony Ive Stealth Mode”项目，Openai都是为AI不仅仅是应用程序的世界做好准备，即操作系统。

Open the app to read the full article