研究人员正在使用根据人类语音训练的人工智能模型来解码狗的秘密语言。这项研究来自密歇根大学、墨西哥国家天体物理研究所和光学电子研究所的研究人员。五月底的一次国际会议上,结论表明今天的人工智能模型至少在某种程度上是理解动物语言的关键。
密歇根大学人工智能实验室主任Rada Mihalcea在一份新闻稿中表示,“对于与我们共享这个世界的动物们,我们还有很多不了解的地方。人工智能的进步可以用来彻底改变我们对动物交流的理解,我们的发现表明,我们可能不必从头开始。”
这项研究利用最先进的人工智能语音模型Wav2Vec2来识别发出任何给定吠叫的狗的情绪、性别和品种。研究人员使用了两个不同的数据集进行训练,并比较了结果:一个是从零开始只对狗的叫声进行训练,另一个是对人类语音进行预训练,然后对叫声进行微调。在近1000小时的人类语音录音上预训练的模型表现更好。然后,研究人员在由74只狗的发声(吠叫)组成的数据集上微调了该模型:42只吉娃娃、21只法国贵宾犬和11只雪纳瑞。
这个在人类和狗身上训练的人工智能模型能够以62%的准确率识别狗的情绪,以62%的准确率识别品种,以69%的准确率识别性别,并以50%的准确率识别一群狗中的特定狗。所有这些分数都超过了刚刚在狗身上训练的人工智能模型,这表明来自人类语音的声音和模式有可能成为理解动物的基础。
在试图解开狗吠背后的情感时,研究人员假设狗的发声与其环境有关。现有证据表明,可以根据猴子和土拨鼠所处的环境来预测它们发出的声音。在这项研究中,研究人员试图赋予狗的一些情绪,包括攻击性的吠叫、正常的吠叫、消极的尖叫和消极的咕噜声。虽然狗可能会经历更多的情绪,但这些噪音在它们的数据集中很大程度上是可用的。
Mihalcea说,“通过使用最初在人类语音上训练的语音处理模型,我们的研究为我们打开了一扇新的窗口,帮助我们利用迄今为止在语音处理方面建立的基础来开始理解狗吠的细微差别。”
展望未来,研究人员表示,他们希望测试更多的品种、情感和物种,以了解这项技术的使用程度。这是人类语音模型首次被用于解码动物交流,可以为理解动物语言奠定基础。虽然这项研究在解开所有狗叫声的含义方面肯定不是决定性的,但研究人员认为这是朝着这个方向迈出的有希望的一步。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛