# 多模態輸入

Mistral Small 3.2 24B Instruct 2506 GGUF
Apache-2.0
Mistral Small 3.2 24B Instruct 2506 是一個多語言大語言模型,支持文本和圖像輸入,文本輸出,具有128k的上下文長度。
圖像生成文本 支持多種語言
M
lmstudio-community
5,588
1
Gemma 3n E2B It
Gemma 3n是Google推出的輕量級、最先進的開源多模態模型家族,基於與Gemini模型相同的研究和技術構建。支持文本、音頻和視覺輸入,適用於多種任務。
圖像生成文本 Transformers
G
google
1,183
26
Qwen2.5 Omni 7B GGUF
其他
Qwen2.5-Omni-7B-GGUF 是基於 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模態輸入,包括文本、音頻和圖像。
大型語言模型 英語
Q
ggml-org
319
3
Qwen2.5 Omni 3B GGUF
其他
Qwen2.5-Omni-3B 是一個多模態模型,支持文本、音頻和圖像輸入,但不支持視頻輸入和音頻生成。
大型語言模型 英語
Q
ggml-org
126
1
DAM 3B Video
其他
DAM-3B-Video是一個30億參數的視覺語言模型,能夠根據用戶指定的圖像/視頻區域生成精細化局部描述。
圖像生成文本 英語
D
nvidia
426
42
Gemma 3 12b Pt Qat Q4 0 Gguf
Gemma 3是Google推出的輕量級開源多模態模型,支持文本與圖像輸入並生成文本輸出,具有128K超長上下文窗口和140+語言支持。
圖像生成文本
G
google
475
12
Ola Video
Apache-2.0
Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態語言模型,基於Qwen2.5架構,支持文本、圖像、視頻和音頻輸入,輸出文本內容。
支持多種語言
O
THUdyh
82
1
Stable Diffusion 3.5 Large Controlnet Canny
其他
適配穩定擴散3.5大模型的Canny邊緣檢測控制網絡,用於精確控制圖像生成過程
圖像生成 英語
S
stabilityai
737
10
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
3dtopia XL
Apache-2.0
3DTopia-XL是基於PrimX高效3D表徵的擴散Transformer架構,能夠快速生成高質量3D資產
3D視覺
3
FrozenBurning
129
45
Sam2 Hiera Base Plus
Apache-2.0
SAM 2是FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
18.17k
6
Diva Llama 3 V0 8b
DiVA Llama 3是一個端到端的語音助手模型,能夠處理語音和文本輸入,採用蒸餾損失進行訓練。
文本生成音頻 Transformers
D
WillHeld
2,596
34
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase