文本生成音频

2025年最佳的 49 个文本生成音频工具

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入，生成文本输出，并具备128K token的上下文长度。

文本生成音频

Transformers 支持多种语言

Ultravox V0 5 Llama 3 2 1b

Ultravox是一个基于Llama3.2-1B和Whisper-large-v3构建的多模态语音大语言模型，能够同时处理语音和文本输入。

文本生成音频

Transformers 支持多种语言

Seamless M4t V2 Large

SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型，支持近100种语言的语音和文本翻译。

文本生成音频

Transformers 支持多种语言

Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型，能够同时处理语音和文本输入。

文本生成音频

Transformers 英语

Ultravox V0 5 Llama 3 1 8b

Ultravox是一款基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

文本生成音频

Transformers 支持多种语言

Hf Seamless M4t Medium

SeamlessM4T 是一个多语言翻译模型，支持语音和文本的输入输出，实现跨语言交流。

文本生成音频

Granite Speech 3.3 8b

专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型，采用双阶段设计处理音频和文本

文本生成音频

Transformers 英语

Voila Tokenizer

Voila是一个大型语音-语言基础模型系列，旨在提升人机交互体验，支持多种音频任务和语言。

文本生成音频

Transformers 支持多种语言

Hf Seamless M4t Large

SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型，能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。

文本生成音频

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，显著降低GPU显存占用，支持多模态处理能力。

文本生成音频

Transformers 其他

Meralion AudioLLM Whisper SEA LION

专为新加坡多语言多元文化环境定制的语音-文本大语言模型，整合Whisper-large-v2语音编码器和SEA-LION V3文本解码器

文本生成音频

Diva Llama 3 V0 8b

DiVA Llama 3是一个端到端的语音助手模型，能够处理语音和文本输入，采用蒸馏损失进行训练。

文本生成音频

Voila是一个全新的大型语音-语言基础模型系列，旨在将人机交互体验提升至全新水平。

文本生成音频

Transformers 支持多种语言

Riffusion Model V1

Riffusion是一款基于稳定扩散技术的实时音乐生成应用，可根据文本输入生成频谱图并转换为音频片段。

文本生成音频

AudioX是一个统一的扩散变压器模型，可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品，提供灵活的自然语言控制，并能无缝处理多种模态输入。

文本生成音频

Emova Speech Tokenizer Hf

EMOVA语音分词器是一个支持中英文的离散语音分词器，采用语义-声学解耦设计，支持灵活语音风格控制。

文本生成音频

Transformers 支持多种语言

Llama3.1 Typhoon2 Audio 8b Instruct

台风2-音频版是一个端到端的语音转语音模型架构，能够处理音频、语音和文本输入，并同时生成文本和语音输出。该模型专门针对泰语优化，同时也支持英语。

文本生成音频

Transformers 支持多种语言

Ultravox V0 6 Gemma 3 27b

Ultravox是一个多模态语音大语言模型，能够同时处理语音和文本输入，为语音交互场景提供强大支持。

文本生成音频

Transformers 支持多种语言

Ichigo Llama3.1 S Instruct V0.4

基于Llama-3架构的多模态语言模型，支持音频和文本输入理解，具有噪声鲁棒性和多轮对话能力

文本生成音频英语

Cnn8rnn W2vmean Audiocaps Grounding

这是一个文本到音频的定位模型，能够预测音频片段中特定声音事件发生的概率。

文本生成音频

Transformers 英语

基于BART-base架构的文本条件符号音乐生成模型，可根据自然语言描述生成ABC记谱法的乐谱

文本生成音频

Transformers 英语

Phi 4 Multimodal Instruct Ko Asr

基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型，在zeroth-korean和fleurs数据集上表现优异。

文本生成音频

Transformers 韩语

Voila Autonomous Preview

Voila是一个大型语音-语言基础模型家族，旨在提升人机交互体验，支持实时、低延迟的语音交互和多语言处理。

文本生成音频

Transformers 支持多种语言

Qwen2 Audio 7B Instruct I1 GGUF

Qwen2-Audio-7B-Instruct的加权/矩阵量化模型，支持英文音频文本转文本任务

文本生成音频

Transformers 英语

SpeechLLM是一个多模态大型语言模型，训练用于预测对话中说话者轮次的元数据，包括语音活动、转录文本、说话者性别、年龄、口音和情绪。

文本生成音频

Transformers 英语

Ultravox V0 4 1 Llama 3 1 70b

Ultravox 是一个多模态语音大语言模型，基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建，能够同时接收语音和文本作为输入。

文本生成音频

Transformers 支持多种语言

Ultravox V0 6 Llama 3 3 70b

Ultravox是一个多模态语音大语言模型，结合了预训练大语言模型和语音编码器，能够处理语音和文本输入。

文本生成音频

Transformers 支持多种语言

Voila Audio Alpha

Voila是一个大型语音-语言基础模型家族，旨在提升人机交互体验，支持实时、低延迟的语音交互和多语言处理。

文本生成音频

Transformers 支持多种语言

Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型，融合了潜在扩散模型（LDM）、Flan-T5和音乐特征来实现高质量的文本到音乐生成。

文本生成音频

Songcomposer Sft

基于InternLM2的语言大模型，专为歌曲创作中的歌词与旋律生成而设计。

文本生成音频

Transformers 支持多种语言

Gazelle v0.2 是由 Tincans 发布的联合语音-语言模型，支持英语。

文本生成音频

Transformers 英语

SIMS Llama3.2 3B

该模型是基于Llama-3.2-3B微调的语音语言模型，专注于分析交错语音-文本SLM的扩展性，支持语音和文本的生成任务。

文本生成音频

Transformers 英语

基于Qwen2.5-7B扩展的语音语言模型，支持语音-文本交错训练和跨模态生成

文本生成音频

Transformers 英语

Speechgpt 7B Cm

SpeechGPT是一个具备内在跨模态对话能力的大型语言模型，能够感知和生成多模态内容，支持语音与文本的交互。

文本生成音频

Riffusion Musiccaps

这是一个基于google/MusicCaps数据集微调的Riffusion模型，能够根据文本提示生成音乐或音乐相关的图像。

文本生成音频

TensorBoard 英语

Ichigo Llama3.1 S Instruct V0.4

基于Llama-3架构的多模态语言模型，支持音频和文本输入理解，在嘈杂环境下具有更强的鲁棒性和多轮对话能力。

文本生成音频英语

Ichigo Llama3.1 S Instruct V0.3 Phase 3

Ichigo-llama3s是一个支持音频和文本输入的大语言模型系列，专注于提升声音理解能力和用户交互体验。

文本生成音频英语

SpeechLLM是一个多模态大型语言模型，用于预测对话中说话者轮次的元数据，包括语音活动、转录文本、性别、年龄、口音和情绪。

文本生成音频

Transformers 英语

Seamless M4t V2 Large

SeamlessM4T是一个大规模多语言多模态机器翻译模型，支持近100种语言的语音和文本翻译。

文本生成音频支持多种语言

Speechgpt 7B Ma

SpeechGPT是一个具备内在跨模态对话能力的大型语言模型，能够根据人类指令感知和生成多模态内容。

文本生成音频

Ultravox V0 5 Llama 3 3 70b Tempfix

Ultravox 是一个多模态语音大语言模型，能够同时接收语音和文本作为输入，支持多种语言和任务。

文本生成音频

Transformers 支持多种语言

Music Generation Model

这是一个通过合并文本生成模型和音乐生成模型创建的混合模型，能够处理文本生成和音乐生成任务。

文本生成音频

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase