Google启动AI来解码海豚谈话，在像素手机上运行

当可能更容易与动物交流时，为什么要尝试理解Z代语？

今天，Google揭幕了海豚，一种开源的AI模型，旨在通过分析其点击，哨声和爆发脉冲来解码海豚通信。该公告恰逢国家海豚纪念日。

该模型与佐治亚理工学院合作创建野生海豚项目（WDP），学习海豚发声的结构，并可以产生类似海豚的声音序列。

突破可以帮助确定海豚交流是否上升到语言水平。

自1985年以来，在世界上最长的水下海豚研究项目中接受了数十年的精心标记的音频和视频数据。

该项目已使用他们称为“在世界上的世界上，按照他们的角度”所谓的非侵入性方法研究了巴哈马的大西洋斑点海豚。

Google在公告中说：“通过确定反复出现的声音模式，簇和可靠的序列，该模型可以帮助研究人员发现海豚自然交流中隐藏的结构和潜在的含义，这是一项先前需要大量人类努力的任务。”

包含大约4亿参数的AI模型足够小，可以在研究人员在现场使用的像素手机上运行。它使用Google Soundstream令牌来处理海豚的声音，并按顺序预测后续的声音，就像人类语言模型如何预测句子中的下一个单词一样。

Dolphingemma并非孤立地工作。它与聊天（Cetacean听力增强遥测）系统一起起作用，该系统将合成的哨声与海豚享受的特定物体相关联，例如sargassum，seagrass或围巾，有可能建立共享的词汇进行互动。

Google表示：“最终，这些模式增强了研究人员创建的合成声音，以指代海豚喜欢玩的对象，可能会与海豚建立共同的词汇进行交互式交流。”

现场研究人员目前使用Pixel 6手机进行海豚声音的实时分析。

该团队计划在2025年夏季研究季节升级到Pixel 9设备，该季节将集成扬声器和麦克风功能，同时同时运行深度学习模型和模板匹配算法。

向智能手机技术的转变大大减少了对定制硬件的需求，这是海洋现场工作的关键优势。 Dolphingemma预测能力可以帮助研究人员预测并确定发声序列早期的潜在模仿，从而使相互作用更加流畅。

了解什么是无法理解的

Dolphingemma加入了其他几项AI计划，旨在破解动物传播守则。

非营利组织的地球物种项目（ESP）最近开发了Naturelm，一种能够识别动物物种，大约年龄以及听起来的音频语言模型表明遇险还是玩耍，不是真正的语言，但仍然是建立一些原始交流的方法。

该模型通过人类语言，环境声音和动物发声训练有希望的结果即使有以前没有遇到的物种。

CETI项目代表了该领域的另一个重大努力。

在伦敦帝国学院的迈克尔·布朗斯坦（Michael Bronstein）等研究人员的带领下，它专门针对抹香鲸交流，分析它们在长距离内使用的复杂模式。

该团队已经确定了143个点击组合，这些组合可能形成一种语音字母，他们现在使用深层神经网络和自然语言处理技术进行研究。

尽管这些项目着重于解码动物声音，但纽约大学的研究人员从婴儿开发中获得了AI学习的灵感。

他们的对比度学习的儿童视图模型（CVCL）通过通过婴儿的角度查看世界，使用了来自6个月至2岁的婴儿穿着的头部置摄像机的镜头来学习语言。

纽约大学（NYU）团队发现，他们的人工智能可以从自然主义数据中有效地学习，类似于人类婴儿的行为，与需要数万亿个培训单词的传统AI模型形成鲜明对比。

Google计划今年夏天分享一个更新版本的Dolphingemma，可能会将其实用程序扩展到大西洋斑点的海豚之外。尽管如此，该模型仍可能需要对不同物种的发声进行微调。

WDP广泛地关注将海豚的声音与特定行为相关联，包括母亲和小牛在冲突中使用的招牌哨声，在冲突期间爆发了“ Squawks”，并在求爱期间或在求助鲨鱼时单击“嗡嗡声”。

Google指出：“我们不再只是在听。” “我们开始理解声音中的模式，为未来的人与海豚交流之间的差距可能会变得更小一些。”

Open the app to read the full article