Ultravox v0.5開源音頻轉文本模型 - 基於Llama-3優化，高效處理語音轉寫任務

首頁

Ultravox V0 5 Llama 3 2 1b GGUF

由ggml-org開發

Ultravox v0.5是基於Llama-3 2.1B架構優化的音頻文本轉文本模型，專注於高效處理語音轉寫任務。

語音識別開源協議:MIT #音頻轉文本 #輕量級模型 #即時處理

下載量 421

發布時間 : 5/21/2025

模型概述

該模型主要用於將音頻內容轉換為文本，適用於語音識別、字幕生成等場景。基於Llama-3架構優化，在保持較高準確率的同時提升處理效率。

模型特點

高效語音轉寫

針對語音識別任務優化的架構，提供高效的音頻轉文本能力

Llama-3基礎

基於Llama-3 2.1B架構，繼承了其優秀的語言理解能力

輕量級部署

相對較小的模型尺寸(2.1B參數)便於部署和使用

模型能力

語音識別

音頻轉文本

即時轉錄

多語言音頻處理(推斷)

使用案例

媒體制作

視頻字幕生成

自動為視頻內容生成準確的字幕

提高字幕製作效率，減少人工轉錄時間

會議記錄

會議即時轉錄

將會議語音內容即時轉換為文字記錄

便於會後查閱和整理會議紀要

屬性	詳情
模型類型	音頻文本到文本處理模型
基礎模型	fixie-ai/ultravox-v0_5-llama-3_2-1b

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Ultravox V0 5 Llama 3 2 1b GGUF

模型概述

模型特點

模型能力

使用案例

🚀 項目信息

📦 模型信息

📄 許可證