U

Ultravox V0 4 1 Llama 3 1 70b

由fixie-ai開發
Ultravox 是一個多模態語音大語言模型,基於預訓練的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主幹構建,能夠同時接收語音和文本作為輸入。
下載量 204
發布時間 : 11/5/2024

模型概述

Ultravox 是一個多模態模型,可以同時接收語音和文本作為輸入(例如,文本系統提示和語音用戶消息)。模型的輸入是一個包含特殊偽標記的文本提示,模型處理器會將該標記替換為輸入音頻的嵌入表示。

模型特點

多模態輸入
可以同時接收語音和文本作為輸入,處理包含音頻嵌入的文本提示。
多語言支持
支持包括中文、英語、西班牙語等15種語言的語音和文本處理。
知識蒸餾訓練
通過知識蒸餾進行監督式語音指令微調,匹配基於文本的 Llama 主幹的邏輯輸出。

模型能力

語音識別
文本生成
多語言翻譯
語音音頻分析

使用案例

語音代理
語音助手
作為語音代理使用,回答用戶問題。
語音翻譯
語音到語音翻譯
支持多種語言之間的語音翻譯。
在英語-阿拉伯語翻譯中達到19.64 BLEU分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase