U

Ultravox V0 5 Llama 3 1 8b

由fixie-ai開發
Ultravox是一款基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
下載量 17.86k
發布時間 : 2/5/2025

模型概述

Ultravox是一款多模態模型,能夠同時接收語音和文本輸入,可作為語音代理或用於語音到語音翻譯、口語音頻分析等任務。

模型特點

多模態輸入
能夠同時處理語音和文本輸入,通過特殊偽標記<|audio|>將音頻嵌入向量與文本融合。
語音理解能力
具備聽覺和理解語音的能力,可作為語音代理使用。
知識蒸餾訓練
採用知識蒸餾損失函數,使模型儘可能匹配基於文本的Llama主幹網絡的邏輯輸出。

模型能力

語音理解
語音到語音翻譯
口語音頻分析
多模態輸入處理

使用案例

語音代理
語音助手
作為語音助手回答用戶問題
語音翻譯
多語言語音翻譯
支持多種語言的語音到語音翻譯
在covost2數據集上取得12.99(英譯阿)至42.13(俄譯英)的BLEU分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase