U

Ultravox V0 4 Llama 3 1 70b

由fixie-ai開發
Ultravox 是一個多模態語音大語言模型,基於預訓練的 Llama3.1-70B-Instruct 和 Whisper-medium 主幹構建,能夠同時接收語音和文本作為輸入。
下載量 79
發布時間 : 9/10/2024

模型概述

Ultravox 是一個多模態模型,能夠同時接收語音和文本作為輸入(例如,文本系統提示和語音用戶消息)。模型的輸入是一個包含特殊偽標記 `<|audio|>` 的文本提示,模型處理器會將該標記替換為輸入音頻生成的嵌入。

模型特點

多模態輸入
能夠同時接收語音和文本作為輸入,適用於多種交互場景。
高性能語音識別
基於 Whisper-medium 編碼器,提供高質量的語音識別能力。
知識蒸餾
採用知識蒸餾損失函數,Ultravox 試圖匹配基於文本的 Llama 主幹的邏輯輸出。

模型能力

語音識別
文本生成
多模態交互
語音到語音翻譯
語音音頻分析

使用案例

語音代理
語音助手
作為語音代理使用,回答用戶的問題。
翻譯
語音到語音翻譯
支持多種語言的語音翻譯任務。
英譯德 BLEU 30.30,西譯英 BLEU 39.55
語音分析
語音音頻分析
分析語音內容,提取關鍵信息。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase