Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型,融合了Phi-3.5和4.0模型的語言、視覺及語音研究數據。支持文本、圖像和音頻輸入,生成文本輸出,並具備128K token的上下文長度。
文本生成音頻
Transformers 支持多種語言

P
microsoft
584.02k
1,329
Ultravox V0 5 Llama 3 2 1b
MIT
Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
167.25k
21
Seamless M4t V2 Large
SeamlessM4T v2 是 Facebook 發佈的大規模多語言多模態機器翻譯模型,支持近100種語言的語音和文本翻譯。
文本生成音頻
Transformers 支持多種語言

S
facebook
64.59k
821
Ultravox V0 3
MIT
Ultravox 是一個基於 Llama3.1-8B-Instruct 和 Whisper-small 構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻
Transformers 英語

U
fixie-ai
48.30k
17
Ultravox V0 5 Llama 3 1 8b
MIT
Ultravox是一款基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
17.86k
12
Hf Seamless M4t Medium
SeamlessM4T 是一個多語言翻譯模型,支持語音和文本的輸入輸出,實現跨語言交流。
文本生成音頻
Transformers

H
facebook
14.74k
30
Granite Speech 3.3 8b
Apache-2.0
專為自動語音識別(ASR)和自動語音翻譯(AST)設計的緊湊高效語音語言模型,採用雙階段設計處理音頻和文本
文本生成音頻
Transformers 英語

G
ibm-granite
5,532
35
Voila Tokenizer
MIT
Voila是一個大型語音-語言基礎模型系列,旨在提升人機交互體驗,支持多種音頻任務和語言。
文本生成音頻
Transformers 支持多種語言

V
maitrix-org
4,912
3
Hf Seamless M4t Large
SeamlessM4T 是一個支持多語言語音和文本翻譯的統一模型,能夠實現語音到語音、語音到文本、文本到語音和文本到文本的翻譯任務。
文本生成音頻
Transformers

H
facebook
4,648
57
Minicpm O 2 6 Int4
MiniCPM-o 2.6的int4量化版本,顯著降低GPU顯存佔用,支持多模態處理能力。
文本生成音頻
Transformers 其他

M
openbmb
4,249
42
Meralion AudioLLM Whisper SEA LION
其他
專為新加坡多語言多元文化環境定製的語音-文本大語言模型,整合Whisper-large-v2語音編碼器和SEA-LION V3文本解碼器
文本生成音頻
Transformers

M
MERaLiON
2,828
12
Diva Llama 3 V0 8b
DiVA Llama 3是一個端到端的語音助手模型,能夠處理語音和文本輸入,採用蒸餾損失進行訓練。
文本生成音頻
Transformers

D
WillHeld
2,596
34
Voila Chat
MIT
Voila是一個全新的大型語音-語言基礎模型系列,旨在將人機交互體驗提升至全新水平。
文本生成音頻
Transformers 支持多種語言

V
maitrix-org
2,423
32
Riffusion Model V1
Openrail
Riffusion是一款基於穩定擴散技術的即時音樂生成應用,可根據文本輸入生成頻譜圖並轉換為音頻片段。
文本生成音頻
R
riffusion
2,354
620
Audiox
AudioX是一個統一的擴散變壓器模型,可實現任意內容到音頻及音樂的生成。它能生成高質量通用音頻與音樂作品,提供靈活的自然語言控制,並能無縫處理多種模態輸入。
文本生成音頻
A
HKUSTAudio
2,189
49
Emova Speech Tokenizer Hf
Apache-2.0
EMOVA語音分詞器是一個支持中英文的離散語音分詞器,採用語義-聲學解耦設計,支持靈活語音風格控制。
文本生成音頻
Transformers 支持多種語言

E
Emova-ollm
895
2
Llama3.1 Typhoon2 Audio 8b Instruct
颱風2-音頻版是一個端到端的語音轉語音模型架構,能夠處理音頻、語音和文本輸入,並同時生成文本和語音輸出。該模型專門針對泰語優化,同時也支持英語。
文本生成音頻
Transformers 支持多種語言

L
scb10x
664
9
Ultravox V0 6 Gemma 3 27b
MIT
Ultravox是一個多模態語音大語言模型,能夠同時處理語音和文本輸入,為語音交互場景提供強大支持。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
641
2
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基於Llama-3架構的多模態語言模型,支持音頻和文本輸入理解,具有噪聲魯棒性和多輪對話能力
文本生成音頻 英語
I
homebrewltd
486
19
Cnn8rnn W2vmean Audiocaps Grounding
Apache-2.0
這是一個文本到音頻的定位模型,能夠預測音頻片段中特定聲音事件發生的概率。
文本生成音頻
Transformers 英語

C
wsntxxn
456
2
Text To Music
MIT
基於BART-base架構的文本條件符號音樂生成模型,可根據自然語言描述生成ABC記譜法的樂譜
文本生成音頻
Transformers 英語

T
sander-wood
405
143
Phi 4 Multimodal Instruct Ko Asr
基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型,在zeroth-korean和fleurs數據集上表現優異。
文本生成音頻
Transformers 韓語

P
junnei
354
3
Voila Autonomous Preview
MIT
Voila是一個大型語音-語言基礎模型家族,旨在提升人機交互體驗,支持即時、低延遲的語音交互和多語言處理。
文本生成音頻
Transformers 支持多種語言

V
maitrix-org
332
8
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instruct的加權/矩陣量化模型,支持英文音頻文本轉文本任務
文本生成音頻
Transformers 英語

Q
mradermacher
282
0
Speechllm 2B
Apache-2.0
SpeechLLM是一個多模態大型語言模型,訓練用於預測對話中說話者輪次的元數據,包括語音活動、轉錄文本、說話者性別、年齡、口音和情緒。
文本生成音頻
Transformers 英語

S
skit-ai
237
16
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravox 是一個多模態語音大語言模型,基於預訓練的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主幹構建,能夠同時接收語音和文本作為輸入。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
204
24
Ultravox V0 6 Llama 3 3 70b
MIT
Ultravox是一個多模態語音大語言模型,結合了預訓練大語言模型和語音編碼器,能夠處理語音和文本輸入。
文本生成音頻
Transformers 支持多種語言

U
fixie-ai
196
0
Voila Audio Alpha
MIT
Voila是一個大型語音-語言基礎模型家族,旨在提升人機交互體驗,支持即時、低延遲的語音交互和多語言處理。
文本生成音頻
Transformers 支持多種語言

V
maitrix-org
175
3
Mustango
Apache-2.0
Mustango是一個專為可控音樂生成而設計的全新多模態大語言模型,融合了潛在擴散模型(LDM)、Flan-T5和音樂特徵來實現高質量的文本到音樂生成。
文本生成音頻
Transformers

M
declare-lab
165
40
Songcomposer Sft
Apache-2.0
基於InternLM2的語言大模型,專為歌曲創作中的歌詞與旋律生成而設計。
文本生成音頻
Transformers 支持多種語言

S
Mar2Ding
113
13
Gazelle V0.2
Apache-2.0
Gazelle v0.2 是由 Tincans 發佈的聯合語音-語言模型,支持英語。
文本生成音頻
Transformers 英語

G
tincans-ai
90
99
SIMS Llama3.2 3B
該模型是基於Llama-3.2-3B微調的語音語言模型,專注於分析交錯語音-文本SLM的擴展性,支持語音和文本的生成任務。
文本生成音頻
Transformers 英語

S
slprl
54
1
SIMS 7B
MIT
基於Qwen2.5-7B擴展的語音語言模型,支持語音-文本交錯訓練和跨模態生成
文本生成音頻
Transformers 英語

S
slprl
51
1
Speechgpt 7B Cm
SpeechGPT是一個具備內在跨模態對話能力的大型語言模型,能夠感知和生成多模態內容,支持語音與文本的交互。
文本生成音頻
Transformers

S
fnlp
47
7
Riffusion Musiccaps
這是一個基於google/MusicCaps數據集微調的Riffusion模型,能夠根據文本提示生成音樂或音樂相關的圖像。
文本生成音頻
TensorBoard 英語

R
Hyeon2
47
5
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基於Llama-3架構的多模態語言模型,支持音頻和文本輸入理解,在嘈雜環境下具有更強的魯棒性和多輪對話能力。
文本生成音頻 英語
I
Menlo
44
20
Ichigo Llama3.1 S Instruct V0.3 Phase 3
Apache-2.0
Ichigo-llama3s是一個支持音頻和文本輸入的大語言模型系列,專注於提升聲音理解能力和用戶交互體驗。
文本生成音頻 英語
I
homebrewltd
43
35
Speechllm 1.5B
Apache-2.0
SpeechLLM是一個多模態大型語言模型,用於預測對話中說話者輪次的元數據,包括語音活動、轉錄文本、性別、年齡、口音和情緒。
文本生成音頻
Transformers 英語

S
skit-ai
40
7
Seamless M4t V2 Large
SeamlessM4T是一個大規模多語言多模態機器翻譯模型,支持近100種語言的語音和文本翻譯。
文本生成音頻 支持多種語言
S
audo
39
17
Speechgpt 7B Ma
SpeechGPT是一個具備內在跨模態對話能力的大型語言模型,能夠根據人類指令感知和生成多模態內容。
文本生成音頻
Transformers

S
fnlp
37
5
Ultravox V0 5 Llama 3 3 70b Tempfix
MIT
Ultravox 是一個多模態語音大語言模型,能夠同時接收語音和文本作為輸入,支持多種語言和任務。
文本生成音頻
Transformers 支持多種語言

U
zhuexe
35
0
Music Generation Model
Apache-2.0
這是一個通過合併文本生成模型和音樂生成模型創建的混合模型,能夠處理文本生成和音樂生成任務。
文本生成音頻
Transformers

M
nagayama0706
27
1
- 1
- 2