U

Ultravox V0 6 Qwen 3 32b

由fixie-ai開發
Ultravox是一個多模態語音大語言模型,能夠理解和處理語音輸入,支持多種語言和噪聲環境。
下載量 1,240
發布時間 : 6/20/2025

模型概述

Ultravox是一個圍繞預訓練大語言模型(如Llama、Gemma、Qwen等)和語音編碼器構建的多模態模型,能夠同時處理語音和文本輸入,適用於語音代理、語音翻譯和語音分析等任務。

模型特點

多模態輸入
可以同時處理語音和文本輸入,支持複雜的交互場景。
多語言支持
支持超過40種語言,包括印地語、中文、西班牙語等。
噪聲魯棒性
在噪聲數據集上訓練,能夠識別嘈雜環境中的語音並輸出特殊標記。
未來語音輸出
計劃擴展支持生成語義和聲學音頻令牌,以實現語音輸出功能。

模型能力

語音理解
語音到文本轉換
多語言語音翻譯
噪聲環境語音識別
語音代理交互

使用案例

語音交互
語音代理
作為能夠理解和響應語音輸入的智能代理。
實現自然的人機語音交互
語音翻譯
多語言語音翻譯
將一種語言的語音即時翻譯為另一種語言的文本。
在covost2測試集上達到12.94-49.29 BLEU分數
語音分析
語音內容分析
分析語音內容並提取關鍵信息。
在big bench audio測試集上達到69.70%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase