U

Ultravox V0 5 Llama 3 2 1b

由fixie-ai開發
Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
下載量 167.25k
發布時間 : 2/6/2025

模型概述

Ultravox是一個多模態模型,能夠接收語音和文本作為輸入,並生成文本輸出。它結合了語音理解和語言生成能力,適用於語音代理、語音翻譯等任務。

模型特點

多模態輸入
能夠同時接收語音和文本作為輸入,處理複雜的多模態任務。
多語言支持
支持超過40種語言,適用於全球化的應用場景。
知識蒸餾訓練
通過知識蒸餾損失函數訓練,使模型能夠匹配基於文本的Llama主幹的邏輯輸出。

模型能力

語音理解
文本生成
語音到文本轉換
多語言處理
語音代理

使用案例

語音交互
語音代理
作為能夠理解和響應語音輸入的智能代理
語言翻譯
語音到語音翻譯
將一種語言的語音輸入轉換為另一種語言的文本或語音輸出
在covost2數據集上表現良好,如en_de翻譯BLEU得分14.21
語音分析
語音內容理解
分析語音內容並提取關鍵信息
在big bench audio任務上得分39.14
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase