音頻生成文本

2025年最佳 30 款音頻生成文本工具

Qwen2-Audio是通義千問大音頻語言模型系列，支持語音聊天和音頻分析兩種交互模式。

音頻生成文本

Transformers 英語

Qwen2 Audio 7B GGUF

Qwen2-Audio是先進的小規模多模態模型，支持音頻與文本輸入，無需依賴語音識別模塊即可實現語音交互。

音頻生成文本英語

Ultravox V0 5 Llama 3 3 70b

Ultravox是基於Llama3.3-70B和Whisper構建的多模態語音大語言模型，支持語音和文本輸入，適用於語音代理、翻譯等場景。

音頻生成文本

Transformers 支持多種語言

Ultravox 是一款基於 Llama3.1-8B-Instruct 和 Whisper-medium 的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers 支持多種語言

輕量級音頻模型，擅長語音識別、音頻理解及執行音頻指令等多元任務

音頻生成文本

Transformers 英語

Ultravox V0 4 1 Mistral Nemo

Ultravox 是一個基於 Mistral-Nemo 和 Whisper 的多模態模型，可同時處理語音和文本輸入，適用於語音代理、語音翻譯等任務。

音頻生成文本

Transformers 支持多種語言

Ultravox V0 6 Qwen 3 32b

Ultravox是一個多模態語音大語言模型，能夠理解和處理語音輸入，支持多種語言和噪聲環境。

音頻生成文本

Transformers 支持多種語言

全球最快、最高效的端側部署音頻語言模型，2.6B參數的多模態模型，可同時處理文本和音頻輸入。

音頻生成文本英語

Qwen2 Audio 7B Instruct 4bit

這是Qwen2-Audio-7B-Instruct的4位量化版本，基於阿里巴巴雲原版Qwen模型開發，是一個音頻-文本多模態大語言模型。

音頻生成文本

Ultravox V0 5 Llama 3 2 1b ONNX

Ultravox是一個多語言音頻轉文本模型，基於LLaMA-3-2.1B架構優化，支持多種語言的語音識別和轉錄任務。

音頻生成文本

Transformers 支持多種語言

Ultravox 是一個基於 Llama3-8B-Instruct 和 Whisper-small 構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers 英語

R1-AQA是基於Qwen2-Audio-7B-Instruct的音頻問答模型，通過群體相對策略優化（GRPO）算法進行強化學習優化，在MMAU基準測試中取得最先進性能。

音頻生成文本

Ultravox V0 4 1 Llama 3 1 8b

Ultravox是基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers 支持多種語言

Shuka v1 是一款原生支持印度語言音頻理解的語言模型，結合自主研發的音頻編碼器和Llama3-8B-Instruct解碼器，支持多語言零樣本問答任務。

音頻生成文本

Transformers 支持多種語言

基於MuAViC數據集的多語言視聽語音識別模型，結合音頻和視覺模態實現魯棒性能

音頻生成文本

Seallms Audio 7B

SeaLLMs-Audio是面向東南亞的大規模音頻語言模型，支持印尼語、泰語、越南語、英語和中文五大語種，具備音頻分析、語音交互等能力。

音頻生成文本支持多種語言

Gemma 3 4b It Speech

Gemma-3-MM是基於Gemma-3-4b-it擴展的多模態指令模型，新增語音處理能力，可處理文本、圖像和音頻輸入，生成文本輸出。

音頻生成文本

Pathumma Llm Audio 1.0.0

Pathumma-llm-audio-1.0.0是一個80億參數的泰語大語言模型，專為音頻理解任務設計，能夠處理語音、通用音頻和音樂等多種音頻輸入。

音頻生成文本

Transformers 支持多種語言

Llama 3 Typhoon V1.5 8b Audio Preview

Typhoon-Audio 預覽版是一款支持泰語和英語的音頻-語言模型，能夠處理文本和音頻輸入，輸出為文本。

音頻生成文本

Qwen2 Audio 7B Instruct GGUF

Qwen2-Audio-7B-Instruct模型的靜態量化版本，支持英文音頻文本轉文本任務

音頻生成文本

Transformers 英語

Qwen-Audio-nf4是Qwen-Audio的量化版本，支持多種音頻輸入和文本輸出

音頻生成文本

Transformers 支持多種語言

AV HuBERT MuAViC Ru

AV-HuBERT是一種視聽語音識別模型，基於MuAViC多語言視聽語料庫訓練，結合音頻和視覺模態實現魯棒性能。

音頻生成文本

Ultravox V0 4 Llama 3 1 70b

Ultravox 是一個多模態語音大語言模型，基於預訓練的 Llama3.1-70B-Instruct 和 Whisper-medium 主幹構建，能夠同時接收語音和文本作為輸入。

音頻生成文本

Transformers 支持多種語言

Phi 4 Mm Inst Asr Singlish

針對新加坡英語優化的多模態語音識別模型，基於微軟Phi-4多模態指令模型微調，顯著提升對新加坡英語獨特語音特徵的識別能力。

音頻生成文本

Transformers 支持多種語言

Ichigo Llama3.1 S Base V0.3

Llama3-S系列模型是由Homebrew Research開發的多模態語言模型，原生支持音頻與文本輸入理解，基於Llama-3架構擴展了語音理解能力。

音頻生成文本英語

Phi 4 Multimodal Instruct Commonvoice Zh Tw

基於microsoft/Phi-4-multimodal-instruct微調的臺灣普通話語音識別模型，在臺灣普通話通用語音19.0數據集上訓練

音頻生成文本

Transformers 中文

Ultravox V0 4 1 Llama 3 3 70b

Ultravox是一個基於Llama3.3-70B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers 支持多種語言

Mistral Speech To Text

這是一個實驗性模型，通過將音頻波形轉換為ASCII藝術，然後微調Mistral模型來預測文本。

音頻生成文本

Ultravox 是一個基於 Llama3.1-8B-Instruct 和 Whisper-small 的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers 英語

Ichigo Llama3.1 S Base V0.3

Llama3-S 是一個支持音頻和文本輸入的多模態語言模型，基於 Llama-3 架構開發，專注於提升語音理解能力。

音頻生成文本英語

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase