U

Ultravox V0 4 1 Llama 3 1 8b

由fixie-ai開發
Ultravox是基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
下載量 747
發布時間 : 11/5/2024

模型概述

Ultravox是一個多模態模型,可以接收語音和文本輸入,並生成文本輸出。適用於語音代理、語音翻譯和語音分析等場景。

模型特點

多模態輸入
能夠同時接收語音和文本輸入,通過特殊偽標記<|audio|>處理音頻嵌入。
多語言支持
支持15種語言,包括中文、英語、西班牙語等。
高效推理
在使用A100-40GB GPU時,音頻內容的首token延遲約150ms,token生成速度約50-100個/秒。

模型能力

語音識別
文本生成
語音翻譯
語音分析

使用案例

語音代理
語音助手
作為語音助手回答用戶問題。
語音翻譯
多語言翻譯
將語音輸入翻譯成多種語言。
在英阿翻譯中BLEU得分為12.28,英德翻譯為27.13。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase