U

Ultravox V0 4 1 Mistral Nemo

由fixie-ai開發
Ultravox 是一個基於 Mistral-Nemo 和 Whisper 的多模態模型,可同時處理語音和文本輸入,適用於語音代理、語音翻譯等任務。
下載量 1,285
發布時間 : 11/7/2024

模型概述

Ultravox 是一個多模態語音大語言模型,能夠接收語音和文本作為輸入,並生成文本輸出。它結合了 Mistral-Nemo 的語言理解能力和 Whisper 的語音處理能力。

模型特點

多模態輸入
可同時接收語音和文本輸入,通過特殊標記 <|audio|> 處理音頻嵌入
多語言支持
支持15種語言的語音和文本處理
高效推理
首次令牌生成時間約150毫秒,每秒可生成50-100個令牌
知識蒸餾訓練
使用知識蒸餾損失函數,匹配基於文本的Mistral主幹模型的邏輯輸出

模型能力

語音識別
語音翻譯
語音對話
多語言處理
文本生成

使用案例

語音交互
語音代理
作為能聽能說的智能代理與人交互
翻譯服務
語音到語音翻譯
將一種語言的語音翻譯成另一種語言的文本
在英語-德語翻譯上達到28.39 BLEU分數
語音分析
語音內容理解
分析語音內容並生成摘要或回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase