U

Ultravox V0 4

由fixie-ai開發
Ultravox 是一款基於 Llama3.1-8B-Instruct 和 Whisper-medium 的多模態語音大語言模型,能夠同時處理語音和文本輸入。
下載量 1,851
發布時間 : 8/23/2024

模型概述

Ultravox 是一款多模態模型,能夠接收語音和文本輸入,並生成文本輸出。它結合了語音識別和大語言模型的能力,適用於語音代理、語音到語音翻譯等任務。

模型特點

多模態輸入
能夠同時接收語音和文本輸入,並通過特殊偽標記 <|audio|> 處理音頻嵌入向量。
語音代理
可以用作語音代理,理解和生成語音內容。
知識蒸餾
採用知識蒸餾損失函數,使模型匹配基於文本的 Llama 主幹網絡的邏輯輸出。

模型能力

語音識別
文本生成
語音到語音翻譯
口語音頻分析

使用案例

語音代理
語音助手
作為語音助手回答用戶問題。
翻譯
語音到語音翻譯
將一種語言的語音翻譯成另一種語言的文本或語音。
英德翻譯 BLEU 25.47,西英翻譯 BLEU 37.11
語音識別
自動語音識別
將語音內容轉換為文本。
LibriSpeech 乾淨測試集 WER 4.45
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase