Show O2 7B
Apache-2.0
Show-o2 是一個改進的原生統一多模態模型,利用自迴歸建模和流匹配技術,支持文本、圖像和視頻模態的統一理解和生成。
文本生成圖像
S
showlab
198
6
Llada V
LLaDA-V是一款基於擴散模型的視覺語言模型,性能超越其他擴散多模態大語言模型。
文本生成圖像
Safetensors
L
GSAI-ML
174
8
Ming Lite Omni
MIT
輕量級統一多模態模型,高效處理圖像、文本、音頻和視頻等多種模態數據,在語音和圖像生成方面表現出色。
多模態融合
Transformers

M
inclusionAI
4,215
103
Qwen2.5 VL 7B Instruct Q8 0 GGUF
Apache-2.0
該模型是基於Qwen2.5-VL-7B-Instruct轉換的GGUF格式模型,支持多模態任務,適用於圖像和文本的交互處理。
文本生成圖像 英語
Q
cxtb
72
1
Qwen.qwen2 VL 72B GGUF
Qwen2-VL-72B 是一個強大的視覺語言模型,支持圖像和文本的多模態理解與生成。
圖像生成文本
Q
DevQuasar
125
1
Llama 3.2 90B Vision Instruct
Llama 3.2-Vision是Meta開發的多模態大語言模型,支持圖像和文本輸入,文本輸出,在視覺識別、圖像推理、圖像描述和圖像問答任務上表現優異。
圖像生成文本
Transformers 支持多種語言

L
meta-llama
15.44k
337
AA Chameleon 7b Base
支持圖文交錯輸入輸出的多模態模型,基於變色龍7B模型並通過對齊萬物框架增強圖像生成能力
文本生成圖像
Transformers 英語

A
PKU-Alignment
105
8
4M 21 B
其他
4M是一個通過標記化與掩碼技術實現多模態擴展的'任意到任意'基礎模型訓練框架
多模態融合
4
EPFL-VILAB
324
6
4M 21 L
其他
4M是一個通過標記化與掩碼技術擴展至多種模態的'任意到任意'基礎模型訓練框架
多模態融合
4
EPFL-VILAB
49
3
Ldm Text2im Large 256
Apache-2.0
基於潛在擴散模型的高分辨率文本到圖像生成模型,通過潛在空間操作實現高效圖像合成
圖像生成
L
CompVis
1,932
34
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98