U

Ultravox V0 5 Llama 3 2 1b ONNX

由onnx-community開發
Ultravox是一個多語言音頻轉文本模型,基於LLaMA-3-2.1B架構優化,支持多種語言的語音識別和轉錄任務。
下載量 1,088
發布時間 : 2/19/2025

模型概述

該模型專注於音頻到文本的轉換任務,能夠處理多種語言的語音輸入並生成準確的文本轉錄。

模型特點

多語言支持
支持超過40種語言的音頻轉錄,包括多種歐洲、亞洲和非洲語言。
高效量化
提供多種量化選項(q8, q4等),可在保持性能的同時減少模型大小和計算需求。
對話式轉錄
能夠理解上下文並生成符合對話場景的轉錄結果,而不僅僅是逐字轉錄。

模型能力

音頻轉錄
多語言語音識別
對話式文本生成
即時語音處理

使用案例

會議記錄
多語言會議轉錄
將多語言會議錄音自動轉錄為文本,支持後續翻譯和分析。
準確識別不同發言者的語音內容並生成結構化的會議記錄。
媒體制作
視頻字幕生成
為多語言視頻內容自動生成字幕。
提高視頻可訪問性,減少人工字幕製作成本。
客戶服務
語音客服記錄
自動記錄和分析客戶服務通話內容。
便於質量監控和客戶需求分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase