Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
文本生成音频
Transformers 支持多种语言

P
microsoft
584.02k
1,329
Ultravox V0 5 Llama 3 2 1b
MIT
Ultravox是一个基于Llama3.2-1B和Whisper-large-v3构建的多模态语音大语言模型,能够同时处理语音和文本输入。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
167.25k
21
Seamless M4t V2 Large
SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频
Transformers 支持多种语言

S
facebook
64.59k
821
Ultravox V0 3
MIT
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型,能够同时处理语音和文本输入。
文本生成音频
Transformers 英语

U
fixie-ai
48.30k
17
Ultravox V0 5 Llama 3 1 8b
MIT
Ultravox是一款基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
17.86k
12
Hf Seamless M4t Medium
SeamlessM4T 是一个多语言翻译模型,支持语音和文本的输入输出,实现跨语言交流。
文本生成音频
Transformers

H
facebook
14.74k
30
Granite Speech 3.3 8b
Apache-2.0
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
文本生成音频
Transformers 英语

G
ibm-granite
5,532
35
Voila Tokenizer
MIT
Voila是一个大型语音-语言基础模型系列,旨在提升人机交互体验,支持多种音频任务和语言。
文本生成音频
Transformers 支持多种语言

V
maitrix-org
4,912
3
Hf Seamless M4t Large
SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型,能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。
文本生成音频
Transformers

H
facebook
4,648
57
Minicpm O 2 6 Int4
MiniCPM-o 2.6的int4量化版本,显著降低GPU显存占用,支持多模态处理能力。
文本生成音频
Transformers 其他

M
openbmb
4,249
42
Meralion AudioLLM Whisper SEA LION
其他
专为新加坡多语言多元文化环境定制的语音-文本大语言模型,整合Whisper-large-v2语音编码器和SEA-LION V3文本解码器
文本生成音频
Transformers

M
MERaLiON
2,828
12
Diva Llama 3 V0 8b
DiVA Llama 3是一个端到端的语音助手模型,能够处理语音和文本输入,采用蒸馏损失进行训练。
文本生成音频
Transformers

D
WillHeld
2,596
34
Voila Chat
MIT
Voila是一个全新的大型语音-语言基础模型系列,旨在将人机交互体验提升至全新水平。
文本生成音频
Transformers 支持多种语言

V
maitrix-org
2,423
32
Riffusion Model V1
Openrail
Riffusion是一款基于稳定扩散技术的实时音乐生成应用,可根据文本输入生成频谱图并转换为音频片段。
文本生成音频
R
riffusion
2,354
620
Audiox
AudioX是一个统一的扩散变压器模型,可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品,提供灵活的自然语言控制,并能无缝处理多种模态输入。
文本生成音频
A
HKUSTAudio
2,189
49
Emova Speech Tokenizer Hf
Apache-2.0
EMOVA语音分词器是一个支持中英文的离散语音分词器,采用语义-声学解耦设计,支持灵活语音风格控制。
文本生成音频
Transformers 支持多种语言

E
Emova-ollm
895
2
Llama3.1 Typhoon2 Audio 8b Instruct
台风2-音频版是一个端到端的语音转语音模型架构,能够处理音频、语音和文本输入,并同时生成文本和语音输出。该模型专门针对泰语优化,同时也支持英语。
文本生成音频
Transformers 支持多种语言

L
scb10x
664
9
Ultravox V0 6 Gemma 3 27b
MIT
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
641
2
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基于Llama-3架构的多模态语言模型,支持音频和文本输入理解,具有噪声鲁棒性和多轮对话能力
文本生成音频 英语
I
homebrewltd
486
19
Cnn8rnn W2vmean Audiocaps Grounding
Apache-2.0
这是一个文本到音频的定位模型,能够预测音频片段中特定声音事件发生的概率。
文本生成音频
Transformers 英语

C
wsntxxn
456
2
Text To Music
MIT
基于BART-base架构的文本条件符号音乐生成模型,可根据自然语言描述生成ABC记谱法的乐谱
文本生成音频
Transformers 英语

T
sander-wood
405
143
Phi 4 Multimodal Instruct Ko Asr
基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型,在zeroth-korean和fleurs数据集上表现优异。
文本生成音频
Transformers 韩语

P
junnei
354
3
Voila Autonomous Preview
MIT
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
文本生成音频
Transformers 支持多种语言

V
maitrix-org
332
8
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instruct的加权/矩阵量化模型,支持英文音频文本转文本任务
文本生成音频
Transformers 英语

Q
mradermacher
282
0
Speechllm 2B
Apache-2.0
SpeechLLM是一个多模态大型语言模型,训练用于预测对话中说话者轮次的元数据,包括语音活动、转录文本、说话者性别、年龄、口音和情绪。
文本生成音频
Transformers 英语

S
skit-ai
237
16
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建,能够同时接收语音和文本作为输入。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
204
24
Ultravox V0 6 Llama 3 3 70b
MIT
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够处理语音和文本输入。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
196
0
Voila Audio Alpha
MIT
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
文本生成音频
Transformers 支持多种语言

V
maitrix-org
175
3
Mustango
Apache-2.0
Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型,融合了潜在扩散模型(LDM)、Flan-T5和音乐特征来实现高质量的文本到音乐生成。
文本生成音频
Transformers

M
declare-lab
165
40
Songcomposer Sft
Apache-2.0
基于InternLM2的语言大模型,专为歌曲创作中的歌词与旋律生成而设计。
文本生成音频
Transformers 支持多种语言

S
Mar2Ding
113
13
Gazelle V0.2
Apache-2.0
Gazelle v0.2 是由 Tincans 发布的联合语音-语言模型,支持英语。
文本生成音频
Transformers 英语

G
tincans-ai
90
99
SIMS Llama3.2 3B
该模型是基于Llama-3.2-3B微调的语音语言模型,专注于分析交错语音-文本SLM的扩展性,支持语音和文本的生成任务。
文本生成音频
Transformers 英语

S
slprl
54
1
SIMS 7B
MIT
基于Qwen2.5-7B扩展的语音语言模型,支持语音-文本交错训练和跨模态生成
文本生成音频
Transformers 英语

S
slprl
51
1
Speechgpt 7B Cm
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
文本生成音频
Transformers

S
fnlp
47
7
Riffusion Musiccaps
这是一个基于google/MusicCaps数据集微调的Riffusion模型,能够根据文本提示生成音乐或音乐相关的图像。
文本生成音频
TensorBoard 英语

R
Hyeon2
47
5
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基于Llama-3架构的多模态语言模型,支持音频和文本输入理解,在嘈杂环境下具有更强的鲁棒性和多轮对话能力。
文本生成音频 英语
I
Menlo
44
20
Ichigo Llama3.1 S Instruct V0.3 Phase 3
Apache-2.0
Ichigo-llama3s是一个支持音频和文本输入的大语言模型系列,专注于提升声音理解能力和用户交互体验。
文本生成音频 英语
I
homebrewltd
43
35
Speechllm 1.5B
Apache-2.0
SpeechLLM是一个多模态大型语言模型,用于预测对话中说话者轮次的元数据,包括语音活动、转录文本、性别、年龄、口音和情绪。
文本生成音频
Transformers 英语

S
skit-ai
40
7
Seamless M4t V2 Large
SeamlessM4T是一个大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频 支持多种语言
S
audo
39
17
Speechgpt 7B Ma
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够根据人类指令感知和生成多模态内容。
文本生成音频
Transformers

S
fnlp
37
5
Ultravox V0 5 Llama 3 3 70b Tempfix
MIT
Ultravox 是一个多模态语音大语言模型,能够同时接收语音和文本作为输入,支持多种语言和任务。
文本生成音频
Transformers 支持多种语言

U
zhuexe
35
0
Music Generation Model
Apache-2.0
这是一个通过合并文本生成模型和音乐生成模型创建的混合模型,能够处理文本生成和音乐生成任务。
文本生成音频
Transformers

M
nagayama0706
27
1
- 1
- 2