U

Ultravox V0 3

由fixie-ai開發
Ultravox 是一個基於 Llama3.1-8B-Instruct 和 Whisper-small 構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
下載量 48.30k
發布時間 : 7/25/2024

模型概述

Ultravox 是一個多模態模型,能夠接收語音和文本輸入,並生成文本輸出。適用於語音代理、語音到語音翻譯和語音分析等任務。

模型特點

多模態輸入
能夠同時接收語音和文本輸入,通過特殊偽標記 <|audio|> 處理音頻嵌入向量。
語音理解
能夠理解和處理語音內容,適用於語音代理和語音分析任務。
知識蒸餾
採用知識蒸餾損失函數,使模型能夠匹配基於文本的 Llama 主幹網絡的邏輯輸出。

模型能力

語音識別
文本生成
語音到文本翻譯
語音分析

使用案例

語音代理
語音助手
作為語音助手,回答用戶的問題並提供幫助。
語音翻譯
語音到語音翻譯
將一種語言的語音輸入翻譯成另一種語言的文本輸出。
英譯德 BLEU 22.68,西譯英 BLEU 24.10
語音分析
語音內容分析
分析語音內容,提取關鍵信息或生成摘要。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase