Qwen2 Audio 7B
Apache-2.0
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
音频生成文本
Transformers 英语

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
音频生成文本 英语
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型,支持语音和文本输入,适用于语音代理、翻译等场景。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
轻量级音频模型,擅长语音识别、音频理解及执行音频指令等多元任务
音频生成文本
Transformers 英语

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型,可同时处理语音和文本输入,适用于语音代理、语音翻译等任务。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
全球最快、最高效的端侧部署音频语言模型,2.6B参数的多模态模型,可同时处理文本和音频输入。
音频生成文本 英语
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
这是Qwen2-Audio-7B-Instruct的4位量化版本,基于阿里巴巴云原版Qwen模型开发,是一个音频-文本多模态大语言模型。
音频生成文本
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一个多语言音频转文本模型,基于LLaMA-3-2.1B架构优化,支持多种语言的语音识别和转录任务。
音频生成文本
Transformers 支持多种语言

U
onnx-community
1,088
3
Ultravox V0 2
MIT
Ultravox 是一个基于 Llama3-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 英语

U
fixie-ai
792
51
R1 Aqa
Apache-2.0
R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型,通过群体相对策略优化(GRPO)算法进行强化学习优化,在MMAU基准测试中取得最先进性能。
音频生成文本
Transformers

R
mispeech
791
14
Ultravox V0 4 1 Llama 3 1 8b
MIT
Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
747
97
Shuka 1
Shuka v1 是一款原生支持印度语言音频理解的语言模型,结合自主研发的音频编码器和Llama3-8B-Instruct解码器,支持多语言零样本问答任务。
音频生成文本
Transformers 支持多种语言

S
sarvamai
729
54
AV HuBERT
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
音频生成文本
Transformers

A
nguyenvulebinh
683
3
Seallms Audio 7B
其他
SeaLLMs-Audio是面向东南亚的大规模音频语言模型,支持印尼语、泰语、越南语、英语和中文五大语种,具备音频分析、语音交互等能力。
音频生成文本 支持多种语言
S
SeaLLMs
539
10
Gemma 3 4b It Speech
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
音频生成文本
Transformers

G
junnei
383
12
Pathumma Llm Audio 1.0.0
Apache-2.0
Pathumma-llm-audio-1.0.0是一个80亿参数的泰语大语言模型,专为音频理解任务设计,能够处理语音、通用音频和音乐等多种音频输入。
音频生成文本
Transformers 支持多种语言

P
nectec
333
7
Llama 3 Typhoon V1.5 8b Audio Preview
Typhoon-Audio 预览版是一款支持泰语和英语的音频-语言模型,能够处理文本和音频输入,输出为文本。
音频生成文本
Transformers

L
scb10x
218
12
Qwen2 Audio 7B Instruct GGUF
Apache-2.0
Qwen2-Audio-7B-Instruct模型的静态量化版本,支持英文音频文本转文本任务
音频生成文本
Transformers 英语

Q
mradermacher
146
0
Qwen Audio Nf4
Qwen-Audio-nf4是Qwen-Audio的量化版本,支持多种音频输入和文本输出
音频生成文本
Transformers 支持多种语言

Q
Ostixe360
134
1
AV HuBERT MuAViC Ru
AV-HuBERT是一种视听语音识别模型,基于MuAViC多语言视听语料库训练,结合音频和视觉模态实现鲁棒性能。
音频生成文本
Transformers

A
nguyenvulebinh
91
1
Ultravox V0 4 Llama 3 1 70b
MIT
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建,能够同时接收语音和文本作为输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
79
4
Phi 4 Mm Inst Asr Singlish
MIT
针对新加坡英语优化的多模态语音识别模型,基于微软Phi-4多模态指令模型微调,显著提升对新加坡英语独特语音特征的识别能力。
音频生成文本
Transformers 支持多种语言

P
mjwong
61
0
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-S系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频与文本输入理解,基于Llama-3架构扩展了语音理解能力。
音频生成文本 英语
I
homebrewltd
33
4
Phi 4 Multimodal Instruct Commonvoice Zh Tw
MIT
基于microsoft/Phi-4-multimodal-instruct微调的台湾普通话语音识别模型,在台湾普通话通用语音19.0数据集上训练
音频生成文本
Transformers 中文

P
JacobLinCool
28
1
Ultravox V0 4 1 Llama 3 3 70b
MIT
Ultravox是一个基于Llama3.3-70B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
26
10
Ultravox V0 3
MIT
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 英语

U
FriendliAI
20
1
Mistral Speech To Text
Apache-2.0
这是一个实验性模型,通过将音频波形转换为ASCII艺术,然后微调Mistral模型来预测文本。
音频生成文本
Transformers

M
0-hero
20
1
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-S 是一个支持音频和文本输入的多模态语言模型,基于 Llama-3 架构开发,专注于提升语音理解能力。
音频生成文本 英语
I
Menlo
18
4