音频生成文本

2025年最佳的 30 个音频生成文本工具

Qwen2-Audio是通义千问大音频语言模型系列，支持语音聊天和音频分析两种交互模式。

音频生成文本

Transformers 英语

Qwen2 Audio 7B GGUF

Qwen2-Audio是先进的小规模多模态模型，支持音频与文本输入，无需依赖语音识别模块即可实现语音交互。

音频生成文本英语

Ultravox V0 5 Llama 3 3 70b

Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型，支持语音和文本输入，适用于语音代理、翻译等场景。

音频生成文本

Transformers 支持多种语言

Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

轻量级音频模型，擅长语音识别、音频理解及执行音频指令等多元任务

音频生成文本

Transformers 英语

Ultravox V0 4 1 Mistral Nemo

Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型，可同时处理语音和文本输入，适用于语音代理、语音翻译等任务。

音频生成文本

Transformers 支持多种语言

Ultravox V0 6 Qwen 3 32b

Ultravox是一个多模态语音大语言模型，能够理解和处理语音输入，支持多种语言和噪声环境。

音频生成文本

Transformers 支持多种语言

全球最快、最高效的端侧部署音频语言模型，2.6B参数的多模态模型，可同时处理文本和音频输入。

音频生成文本英语

Qwen2 Audio 7B Instruct 4bit

这是Qwen2-Audio-7B-Instruct的4位量化版本，基于阿里巴巴云原版Qwen模型开发，是一个音频-文本多模态大语言模型。

音频生成文本

Ultravox V0 5 Llama 3 2 1b ONNX

Ultravox是一个多语言音频转文本模型，基于LLaMA-3-2.1B架构优化，支持多种语言的语音识别和转录任务。

音频生成文本

Transformers 支持多种语言

Ultravox 是一个基于 Llama3-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 英语

R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型，通过群体相对策略优化（GRPO）算法进行强化学习优化，在MMAU基准测试中取得最先进性能。

音频生成文本

Ultravox V0 4 1 Llama 3 1 8b

Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

Shuka v1 是一款原生支持印度语言音频理解的语言模型，结合自主研发的音频编码器和Llama3-8B-Instruct解码器，支持多语言零样本问答任务。

音频生成文本

Transformers 支持多种语言

基于MuAViC数据集的多语言视听语音识别模型，结合音频和视觉模态实现鲁棒性能

音频生成文本

Seallms Audio 7B

SeaLLMs-Audio是面向东南亚的大规模音频语言模型，支持印尼语、泰语、越南语、英语和中文五大语种，具备音频分析、语音交互等能力。

音频生成文本支持多种语言

Gemma 3 4b It Speech

Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型，新增语音处理能力，可处理文本、图像和音频输入，生成文本输出。

音频生成文本

Pathumma Llm Audio 1.0.0

Pathumma-llm-audio-1.0.0是一个80亿参数的泰语大语言模型，专为音频理解任务设计，能够处理语音、通用音频和音乐等多种音频输入。

音频生成文本

Transformers 支持多种语言

Llama 3 Typhoon V1.5 8b Audio Preview

Typhoon-Audio 预览版是一款支持泰语和英语的音频-语言模型，能够处理文本和音频输入，输出为文本。

音频生成文本

Qwen2 Audio 7B Instruct GGUF

Qwen2-Audio-7B-Instruct模型的静态量化版本，支持英文音频文本转文本任务

音频生成文本

Transformers 英语

Qwen-Audio-nf4是Qwen-Audio的量化版本，支持多种音频输入和文本输出

音频生成文本

Transformers 支持多种语言

AV HuBERT MuAViC Ru

AV-HuBERT是一种视听语音识别模型，基于MuAViC多语言视听语料库训练，结合音频和视觉模态实现鲁棒性能。

音频生成文本

Ultravox V0 4 Llama 3 1 70b

Ultravox 是一个多模态语音大语言模型，基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建，能够同时接收语音和文本作为输入。

音频生成文本

Transformers 支持多种语言

Phi 4 Mm Inst Asr Singlish

针对新加坡英语优化的多模态语音识别模型，基于微软Phi-4多模态指令模型微调，显著提升对新加坡英语独特语音特征的识别能力。

音频生成文本

Transformers 支持多种语言

Ichigo Llama3.1 S Base V0.3

Llama3-S系列模型是由Homebrew Research开发的多模态语言模型，原生支持音频与文本输入理解，基于Llama-3架构扩展了语音理解能力。

音频生成文本英语

Phi 4 Multimodal Instruct Commonvoice Zh Tw

基于microsoft/Phi-4-multimodal-instruct微调的台湾普通话语音识别模型，在台湾普通话通用语音19.0数据集上训练

音频生成文本

Transformers 中文

Ultravox V0 4 1 Llama 3 3 70b

Ultravox是一个基于Llama3.3-70B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 英语

Mistral Speech To Text

这是一个实验性模型，通过将音频波形转换为ASCII艺术，然后微调Mistral模型来预测文本。

音频生成文本

Ichigo Llama3.1 S Base V0.3

Llama3-S 是一个支持音频和文本输入的多模态语言模型，基于 Llama-3 架构开发，专注于提升语音理解能力。

音频生成文本英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase