文本生成音頻

2025年最佳 49 款文本生成音頻工具

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型，融合了Phi-3.5和4.0模型的語言、視覺及語音研究數據。支持文本、圖像和音頻輸入，生成文本輸出，並具備128K token的上下文長度。

文本生成音頻

Transformers 支持多種語言

Ultravox V0 5 Llama 3 2 1b

Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

文本生成音頻

Transformers 支持多種語言

Seamless M4t V2 Large

SeamlessM4T v2 是 Facebook 發佈的大規模多語言多模態機器翻譯模型，支持近100種語言的語音和文本翻譯。

文本生成音頻

Transformers 支持多種語言

Ultravox 是一個基於 Llama3.1-8B-Instruct 和 Whisper-small 構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

文本生成音頻

Transformers 英語

Ultravox V0 5 Llama 3 1 8b

Ultravox是一款基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

文本生成音頻

Transformers 支持多種語言

Hf Seamless M4t Medium

SeamlessM4T 是一個多語言翻譯模型，支持語音和文本的輸入輸出，實現跨語言交流。

文本生成音頻

Granite Speech 3.3 8b

專為自動語音識別(ASR)和自動語音翻譯(AST)設計的緊湊高效語音語言模型，採用雙階段設計處理音頻和文本

文本生成音頻

Transformers 英語

Voila Tokenizer

Voila是一個大型語音-語言基礎模型系列，旨在提升人機交互體驗，支持多種音頻任務和語言。

文本生成音頻

Transformers 支持多種語言

Hf Seamless M4t Large

SeamlessM4T 是一個支持多語言語音和文本翻譯的統一模型，能夠實現語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務。

文本生成音頻

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，顯著降低GPU顯存佔用，支持多模態處理能力。

文本生成音頻

Transformers 其他

Meralion AudioLLM Whisper SEA LION

專為新加坡多語言多元文化環境定製的語音-文本大語言模型，整合Whisper-large-v2語音編碼器和SEA-LION V3文本解碼器

文本生成音頻

Diva Llama 3 V0 8b

DiVA Llama 3是一個端到端的語音助手模型，能夠處理語音和文本輸入，採用蒸餾損失進行訓練。

文本生成音頻

Voila是一個全新的大型語音-語言基礎模型系列，旨在將人機交互體驗提升至全新水平。

文本生成音頻

Transformers 支持多種語言

Riffusion Model V1

Riffusion是一款基於穩定擴散技術的即時音樂生成應用，可根據文本輸入生成頻譜圖並轉換為音頻片段。

文本生成音頻

AudioX是一個統一的擴散變壓器模型，可實現任意內容到音頻及音樂的生成。它能生成高質量通用音頻與音樂作品，提供靈活的自然語言控制，並能無縫處理多種模態輸入。

文本生成音頻

Emova Speech Tokenizer Hf

EMOVA語音分詞器是一個支持中英文的離散語音分詞器，採用語義-聲學解耦設計，支持靈活語音風格控制。

文本生成音頻

Transformers 支持多種語言

Llama3.1 Typhoon2 Audio 8b Instruct

颱風2-音頻版是一個端到端的語音轉語音模型架構，能夠處理音頻、語音和文本輸入，並同時生成文本和語音輸出。該模型專門針對泰語優化，同時也支持英語。

文本生成音頻

Transformers 支持多種語言

Ultravox V0 6 Gemma 3 27b

Ultravox是一個多模態語音大語言模型，能夠同時處理語音和文本輸入，為語音交互場景提供強大支持。

文本生成音頻

Transformers 支持多種語言

Ichigo Llama3.1 S Instruct V0.4

基於Llama-3架構的多模態語言模型，支持音頻和文本輸入理解，具有噪聲魯棒性和多輪對話能力

文本生成音頻英語

Cnn8rnn W2vmean Audiocaps Grounding

這是一個文本到音頻的定位模型，能夠預測音頻片段中特定聲音事件發生的概率。

文本生成音頻

Transformers 英語

基於BART-base架構的文本條件符號音樂生成模型，可根據自然語言描述生成ABC記譜法的樂譜

文本生成音頻

Transformers 英語

Phi 4 Multimodal Instruct Ko Asr

基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型，在zeroth-korean和fleurs數據集上表現優異。

文本生成音頻

Transformers 韓語

Voila Autonomous Preview

Voila是一個大型語音-語言基礎模型家族，旨在提升人機交互體驗，支持即時、低延遲的語音交互和多語言處理。

文本生成音頻

Transformers 支持多種語言

Qwen2 Audio 7B Instruct I1 GGUF

Qwen2-Audio-7B-Instruct的加權/矩陣量化模型，支持英文音頻文本轉文本任務

文本生成音頻

Transformers 英語

SpeechLLM是一個多模態大型語言模型，訓練用於預測對話中說話者輪次的元數據，包括語音活動、轉錄文本、說話者性別、年齡、口音和情緒。

文本生成音頻

Transformers 英語

Ultravox V0 4 1 Llama 3 1 70b

Ultravox 是一個多模態語音大語言模型，基於預訓練的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主幹構建，能夠同時接收語音和文本作為輸入。

文本生成音頻

Transformers 支持多種語言

Ultravox V0 6 Llama 3 3 70b

Ultravox是一個多模態語音大語言模型，結合了預訓練大語言模型和語音編碼器，能夠處理語音和文本輸入。

文本生成音頻

Transformers 支持多種語言

Voila Audio Alpha

Voila是一個大型語音-語言基礎模型家族，旨在提升人機交互體驗，支持即時、低延遲的語音交互和多語言處理。

文本生成音頻

Transformers 支持多種語言

Mustango是一個專為可控音樂生成而設計的全新多模態大語言模型，融合了潛在擴散模型（LDM）、Flan-T5和音樂特徵來實現高質量的文本到音樂生成。

文本生成音頻

Songcomposer Sft

基於InternLM2的語言大模型，專為歌曲創作中的歌詞與旋律生成而設計。

文本生成音頻

Transformers 支持多種語言

Gazelle v0.2 是由 Tincans 發佈的聯合語音-語言模型，支持英語。

文本生成音頻

Transformers 英語

SIMS Llama3.2 3B

該模型是基於Llama-3.2-3B微調的語音語言模型，專注於分析交錯語音-文本SLM的擴展性，支持語音和文本的生成任務。

文本生成音頻

Transformers 英語

基於Qwen2.5-7B擴展的語音語言模型，支持語音-文本交錯訓練和跨模態生成

文本生成音頻

Transformers 英語

Speechgpt 7B Cm

SpeechGPT是一個具備內在跨模態對話能力的大型語言模型，能夠感知和生成多模態內容，支持語音與文本的交互。

文本生成音頻

Riffusion Musiccaps

這是一個基於google/MusicCaps數據集微調的Riffusion模型，能夠根據文本提示生成音樂或音樂相關的圖像。

文本生成音頻

TensorBoard 英語

Ichigo Llama3.1 S Instruct V0.4

基於Llama-3架構的多模態語言模型，支持音頻和文本輸入理解，在嘈雜環境下具有更強的魯棒性和多輪對話能力。

文本生成音頻英語

Ichigo Llama3.1 S Instruct V0.3 Phase 3

Ichigo-llama3s是一個支持音頻和文本輸入的大語言模型系列，專注於提升聲音理解能力和用戶交互體驗。

文本生成音頻英語

SpeechLLM是一個多模態大型語言模型，用於預測對話中說話者輪次的元數據，包括語音活動、轉錄文本、性別、年齡、口音和情緒。

文本生成音頻

Transformers 英語

Seamless M4t V2 Large

SeamlessM4T是一個大規模多語言多模態機器翻譯模型，支持近100種語言的語音和文本翻譯。

文本生成音頻支持多種語言

Speechgpt 7B Ma

SpeechGPT是一個具備內在跨模態對話能力的大型語言模型，能夠根據人類指令感知和生成多模態內容。

文本生成音頻

Ultravox V0 5 Llama 3 3 70b Tempfix

Ultravox 是一個多模態語音大語言模型，能夠同時接收語音和文本作為輸入，支持多種語言和任務。

文本生成音頻

Transformers 支持多種語言

Music Generation Model

這是一個通過合併文本生成模型和音樂生成模型創建的混合模型，能夠處理文本生成和音樂生成任務。

文本生成音頻

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase