1作者: biduskamil大约 1 个月前原帖
你好,我是卡米尔,我是位于波兰华沙的应用人工智能机构的创始人。 我们训练了一个小于1MB的语音分类模型,该模型在CPU上运行时延为4毫秒。它可以与Silero VAD一起在语音人工智能部署中使用。 我们在欧盟的呼叫中心语音助手的实际部署中注意到,人类顾问在接到来电者的一次发言后,立即能够理解如何对动词和形容词进行语调变化。然而,语音人工智能代理在通话的前1-2分钟内并不知道这一点,直到他们被纠正或来电者明确使用了几次男性/女性形式的词汇。 我们的模型能够从来电者的第一次发言中解决这个问题。语音人工智能管道可以将分类结果作为上下文注入到系统提示中。我们观察到这对语音人工智能在实践中的采用产生了显著影响。 模型和论文链接: [https://huggingface.co/syntropicsignal-ai/gender-voice-classifier](https://huggingface.co/syntropicsignal-ai/gender-voice-classifier)