Qwen2 Audio 7B
Apache-2.0
Qwen2-Audio是通義千問大音頻語言模型系列,支持語音聊天和音頻分析兩種交互模式。
音頻生成文本
Transformers 英語

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audio是先進的小規模多模態模型,支持音頻與文本輸入,無需依賴語音識別模塊即可實現語音交互。
音頻生成文本 英語
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
Ultravox是基於Llama3.3-70B和Whisper構建的多模態語音大語言模型,支持語音和文本輸入,適用於語音代理、翻譯等場景。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
Ultravox 是一款基於 Llama3.1-8B-Instruct 和 Whisper-medium 的多模態語音大語言模型,能夠同時處理語音和文本輸入。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
輕量級音頻模型,擅長語音識別、音頻理解及執行音頻指令等多元任務
音頻生成文本
Transformers 英語

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
Ultravox 是一個基於 Mistral-Nemo 和 Whisper 的多模態模型,可同時處理語音和文本輸入,適用於語音代理、語音翻譯等任務。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一個多模態語音大語言模型,能夠理解和處理語音輸入,支持多種語言和噪聲環境。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
全球最快、最高效的端側部署音頻語言模型,2.6B參數的多模態模型,可同時處理文本和音頻輸入。
音頻生成文本 英語
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
這是Qwen2-Audio-7B-Instruct的4位量化版本,基於阿里巴巴雲原版Qwen模型開發,是一個音頻-文本多模態大語言模型。
音頻生成文本
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一個多語言音頻轉文本模型,基於LLaMA-3-2.1B架構優化,支持多種語言的語音識別和轉錄任務。
音頻生成文本
Transformers 支持多種語言

U
onnx-community
1,088
3
Ultravox V0 2
MIT
Ultravox 是一個基於 Llama3-8B-Instruct 和 Whisper-small 構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
音頻生成文本
Transformers 英語

U
fixie-ai
792
51
R1 Aqa
Apache-2.0
R1-AQA是基於Qwen2-Audio-7B-Instruct的音頻問答模型,通過群體相對策略優化(GRPO)算法進行強化學習優化,在MMAU基準測試中取得最先進性能。
音頻生成文本
Transformers

R
mispeech
791
14
Ultravox V0 4 1 Llama 3 1 8b
MIT
Ultravox是基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
747
97
Shuka 1
Shuka v1 是一款原生支持印度語言音頻理解的語言模型,結合自主研發的音頻編碼器和Llama3-8B-Instruct解碼器,支持多語言零樣本問答任務。
音頻生成文本
Transformers 支持多種語言

S
sarvamai
729
54
AV HuBERT
基於MuAViC數據集的多語言視聽語音識別模型,結合音頻和視覺模態實現魯棒性能
音頻生成文本
Transformers

A
nguyenvulebinh
683
3
Seallms Audio 7B
其他
SeaLLMs-Audio是面向東南亞的大規模音頻語言模型,支持印尼語、泰語、越南語、英語和中文五大語種,具備音頻分析、語音交互等能力。
音頻生成文本 支持多種語言
S
SeaLLMs
539
10
Gemma 3 4b It Speech
Gemma-3-MM是基於Gemma-3-4b-it擴展的多模態指令模型,新增語音處理能力,可處理文本、圖像和音頻輸入,生成文本輸出。
音頻生成文本
Transformers

G
junnei
383
12
Pathumma Llm Audio 1.0.0
Apache-2.0
Pathumma-llm-audio-1.0.0是一個80億參數的泰語大語言模型,專為音頻理解任務設計,能夠處理語音、通用音頻和音樂等多種音頻輸入。
音頻生成文本
Transformers 支持多種語言

P
nectec
333
7
Llama 3 Typhoon V1.5 8b Audio Preview
Typhoon-Audio 預覽版是一款支持泰語和英語的音頻-語言模型,能夠處理文本和音頻輸入,輸出為文本。
音頻生成文本
Transformers

L
scb10x
218
12
Qwen2 Audio 7B Instruct GGUF
Apache-2.0
Qwen2-Audio-7B-Instruct模型的靜態量化版本,支持英文音頻文本轉文本任務
音頻生成文本
Transformers 英語

Q
mradermacher
146
0
Qwen Audio Nf4
Qwen-Audio-nf4是Qwen-Audio的量化版本,支持多種音頻輸入和文本輸出
音頻生成文本
Transformers 支持多種語言

Q
Ostixe360
134
1
AV HuBERT MuAViC Ru
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
音頻生成文本
Transformers

A
nguyenvulebinh
91
1
Ultravox V0 4 Llama 3 1 70b
MIT
Ultravox 是一個多模態語音大語言模型,基於預訓練的 Llama3.1-70B-Instruct 和 Whisper-medium 主幹構建,能夠同時接收語音和文本作為輸入。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
79
4
Phi 4 Mm Inst Asr Singlish
MIT
針對新加坡英語優化的多模態語音識別模型,基於微軟Phi-4多模態指令模型微調,顯著提升對新加坡英語獨特語音特徵的識別能力。
音頻生成文本
Transformers 支持多種語言

P
mjwong
61
0
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-S系列模型是由Homebrew Research開發的多模態語言模型,原生支持音頻與文本輸入理解,基於Llama-3架構擴展了語音理解能力。
音頻生成文本 英語
I
homebrewltd
33
4
Phi 4 Multimodal Instruct Commonvoice Zh Tw
MIT
基於microsoft/Phi-4-multimodal-instruct微調的臺灣普通話語音識別模型,在臺灣普通話通用語音19.0數據集上訓練
音頻生成文本
Transformers 中文

P
JacobLinCool
28
1
Ultravox V0 4 1 Llama 3 3 70b
MIT
Ultravox是一個基於Llama3.3-70B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
26
10
Mistral Speech To Text
Apache-2.0
這是一個實驗性模型,通過將音頻波形轉換為ASCII藝術,然後微調Mistral模型來預測文本。
音頻生成文本
Transformers

M
0-hero
20
1
Ultravox V0 3
MIT
Ultravox 是一個基於 Llama3.1-8B-Instruct 和 Whisper-small 的多模態語音大語言模型,能夠同時處理語音和文本輸入。
音頻生成文本
Transformers 英語

U
FriendliAI
20
1
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-S 是一個支持音頻和文本輸入的多模態語言模型,基於 Llama-3 架構開發,專注於提升語音理解能力。
音頻生成文本 英語
I
Menlo
18
4