headphones
这个AI模型可以在恐怖中歇斯底里地尖叫
量子交易者
量子交易者
authIcon
数字货币大师
Follow
Focus
纳里实验室(Nari Labs)声称,其微小的DIA-1.6B AI模型从其引起人们的注意中宣布了巨大的情商。
Helpful
Not Helpful
Play

Nari Labs已发布DIA-1.6B,这是一种开源文本到语音模型,声称在产生情感表达性的语音时,声称胜过Elevenlabs和sesame等诸如Elevenlabs和芝麻之类的球员。该模型超级很小(只有16亿个参数),但仍然可以创建逼真的对话,并带有笑声,咳嗽和情感上的变化。

它甚至可能在恐怖中尖叫。

虽然这听起来不像是一项巨大的技术壮举,但即使是Openai Chatgpt也被那样震惊:“我不能尖叫,但我肯定可以说出来,”当询问时,它的聊天机器人回答。 

现在,如果您要求一些AI模型可以尖叫。但这不是自然或有机发生的事情,显然是DIA-1.6B超级力量。它了解,在某些情况下,尖叫是适当的。

NARI模型在具有10GB VRAM的单个GPU上实时运行,在NVIDIA A4000上处理约40个令牌。与较大的封闭源替代方案不同,DIA-1.6B可以在Apache 2.0许可下通过拥抱脸Girub存储库。

“一个荒谬的目标是:建立一个TTS模型,该模型可与NotebookLM播客,Elevenlabs Studio和Sesame CSM匹配。我们以某种方式将其推出,” Nari Labs联合创始人Toby Kim发表在X上宣布模型时。并排比较比竞争对手更好地表明了DIA处理标准对话和非语言表达式,而竞争对手通常完全会使交付或跳过非语言标签。

使情感AI的竞赛

AI平台越来越专注于使他们的文本到语音模型表现出情感,从而解决了人机互动中缺少的元素。但是,它们并不是完美的,大多数模型(开放或封闭)旨在创造出一种降低用户体验的不可思议的山谷效应。

我们有尝试和比较只要用户进入正确的思维方式并知道他们的局限性,有几个不同的平台专注于情感语音的特定主题,并且大多数平台都非常好。但是,该技术仍然远非令人信服。

为了解决这个问题,研究人员正在采用各种技术。与数据集上的一些火车模型一起情感标签,允许AI学习与不同情绪状态相关的声学模式。其他人则使用深层的神经网络和大型语言模型来分析上下文提示用于产生适当的情感音调。

市场领导者之一Elevenlabs试图直接从文本输入中解释情感上下文,以查看语言提示,句子结构和标点符号来推断适当的情感语气。它的旗舰模型,11个多语言V2,以其在29种语言中的情感表达而闻名。

同时,Openai最近推出了GPT-OO-MINI-TC“通过可自定义的情感表达。在示威期间,该公司突出了为客户支持场景提供诸如“道歉”之类的情感的能力,以每分钟1.5美分的价格定价,以使开发人员可以使用它。其先进的语音模式擅长模仿人类的情感,但可以夸张和热情地竞争我们的测试,与其他测试相比,它可以与其他仇恨相竞争。

DIA-1.6B有可能打破新的基础,就是它如何处理非语言通信。当由诸如“(笑)”或“(咳嗽)”之类的特定文本提示触发时,该模型可以综合笑声,咳嗽和喉咙清除 - 在标准TTS输出中添加了经常缺少的现实主义一层。

除了DIA-1.6B之外,其他值得注意的开源项目包括情感 - 一种多功能TTS引擎,将情感作为可控风格因素,并orpheus,以超低潜伏期和栩栩如生的情感表达而闻名。

很难成为人类

但是,为什么情感上的话如此辛苦呢?毕竟,AI模型不再听起来机器人 很久以前.

好吧,似乎自然和情感是两个不同的野兽。模型可以听起来像人类,具有令人信服的语气,但完全无法传达出简单叙事的情感。

“在我看来,情感语音综合很难,因为它依赖于缺乏情感粒度的数据。大多数训练数据集捕获了清洁且可理解但不具有深刻表现力的语音,” AI视频生成公司的首席执行官Kaveh Vahdat拉斯尔,告诉解密。 “情感不仅是语气或音量;它是上下文,节奏,紧张和犹豫。这些特征通常是隐性的,很少以机器可以学习的方式标记。”

Vahdat认为:“即使使用了情感标签,它们也倾向于将真实人类影响的复杂性变为广泛的类别,例如'Happy'或'Angry',这与情感在语音中的实际作用相去甚远。”

我们尝试了DIA,实际上足够好。它产生了每秒推理的一秒钟,并且确实传达了色调的情绪,但是夸张的是它并不自然。这是整个问题的关键 - 模型缺乏如此多的上下文意识,以至于很难在没有其他提示的情况下隔离单一的情感,并使人类实际上相信它是自然互动的一部分

“不可思议的山谷”效果提出了一个特殊的挑战,因为合成语音不能仅仅通过采用更情感的语气来弥补中性的机器人声音。

而且还有更多的技术障碍比比皆是。 AI系统经常表现不佳当对未包含在培训数据中的说话者进行测试时,这个问题在与说话者无关的实验中被称为低分类精度。情感语音的实时处理需要实质性的计算能力,从而限制了在消费者设备上的部署。

数据质量和偏见也带来了重大障碍。培训AI进行情感语音需要大量,多样化的数据集,以捕捉人口统计学,语言和环境的情绪。接受特定群体培训的系统可能与其他人的表现不佳 - 例如,对高加索语音模式的AI培训可能与其他人口统计有关。

也许最重要的是,一些研究人员争论AI由于缺乏意识而无法真正模仿人类的情感。尽管AI可以根据模式模拟情绪,但它缺乏人类带来情感互动的生活经验和同情。

猜猜人类比看起来更难。抱歉,chatgpt。

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share