U

Ultravox V0 5 Llama 3 3 70b Tempfix

由zhuexe開發
Ultravox 是一個多模態語音大語言模型,能夠同時接收語音和文本作為輸入,支持多種語言和任務。
下載量 35
發布時間 : 5/2/2025

模型概述

Ultravox 是一個基於 Llama3.3-70B-Instruct 和 whisper-large-v3-turbo 的多模態模型,能夠處理語音和文本輸入,適用於語音代理、語音翻譯和語音分析等任務。

模型特點

多模態輸入
支持同時接收語音和文本輸入,通過特殊偽標記 `<|audio|>` 處理音頻嵌入。
多語言支持
支持超過 40 種語言,適用於全球多語言應用場景。
高性能推理
首次令牌生成時間(TTFT)約為 150 毫秒,令牌生成速度為每秒 50-100 個。

模型能力

語音識別
語音翻譯
語音分析
多模態輸入處理
文本生成

使用案例

語音代理
語音助手
作為語音代理,回答用戶問題並提供幫助。
高效處理語音輸入並生成自然語言響應。
語音翻譯
多語言語音翻譯
將一種語言的語音翻譯成另一種語言的文本或語音。
在多個語言對中表現優異,如英語到中文的 BLEU 分數為 21.37。
語音分析
語音內容分析
分析語音內容並提取關鍵信息。
支持多種語言和複雜場景的語音分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase