Omnigen2
Apache-2.0
OmniGen2 是一個強大且高效的統一多模態模型,由 3B 視覺語言模型和 4B 擴散模型構成,支持視覺理解、文本到圖像生成、指令引導的圖像編輯和上下文生成。
文本生成圖像
O
OmniGen2
136
5
Blip Arabic Flickr 8k
MIT
基於BLIP架構微調的阿拉伯語圖像字幕生成模型,專門針對Flickr8k阿拉伯語數據集優化
圖像生成文本
Transformers 支持多種語言

B
omarsabri8756
56
1
GLM 4 32B 0414 GGUF
MIT
GLM-4-32B-0414是擁有320億參數的大語言模型,性能媲美GPT-4o和DeepSeek-V3,支持中文和英語,具備卓越的代碼生成、函數調用和複雜任務處理能力。
大型語言模型 支持多種語言
G
unsloth
4,680
10
Fashion BLIP
Apache-2.0
BLIP 是一個基於 Transformer 的圖像到文本生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
F
kzap201
585
0
Skyreels V2 DF 1.3B 540P
其他
SkyReels V2是首個採用自迴歸擴散強制架構的開源視頻生成模型,支持無限時長電影生成,在公開模型中實現最先進的性能表現。
視頻處理
S
Skywork
600
23
Instancecap Captioner
其他
基於Qwen2.5-VL-7B-Instruct在instancevid數據集上微調的視覺語言模型,專注於實例級圖像描述生成
圖像生成文本
Transformers

I
AnonMegumi
14
1
GLM 4 32B 0414
MIT
GLM-4-32B-0414是擁有320億參數規模的大語言模型,性能與GPT系列相當,支持中英文,擅長代碼生成、函數調用和複雜任務處理。
大型語言模型
Transformers 支持多種語言

G
THUDM
10.91k
320
SIMS 7B
MIT
基於Qwen2.5-7B擴展的語音語言模型,支持語音-文本交錯訓練和跨模態生成
文本生成音頻
Transformers 英語

S
slprl
51
1
Llama 3.2 Vision Instruct Bpmncoder
Apache-2.0
基於Unsloth優化的Llama 3.2 11B視覺指令微調模型,採用4位量化技術,訓練速度提升2倍
文本生成圖像
Transformers 英語

L
utkarshkingh
40
1
Qwen2 Vl Instuct Bpmncoder
Apache-2.0
基於Qwen2-VL-7B模型的4位量化版本,使用Unsloth和Huggingface TRL庫進行訓練,推理速度提升2倍
文本生成圖像
Transformers 英語

Q
utkarshkingh
18
1
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本
V
aryan083
31
0
Cockatiel 13B
基於VILA-v1.5-13B開發的視頻文本生成模型,能夠為輸入視頻生成精細的描述文本,符合人類偏好。
視頻生成文本
Transformers

C
Fr0zencr4nE
26
2
Llama 3.2 11B Vision Invoices Mini
Apache-2.0
基於unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微調的多模態大語言模型,支持視覺指令理解任務,使用Unsloth優化訓練速度提升2倍。
文本生成圖像
Transformers 英語

L
atulSethi
46
1
Qwenfluxprompt
Apache-2.0
這是一個為Wan2.1 14B視頻生成模型訓練的LoRA,適用於文本轉視頻和圖像轉視頻任務。
視頻處理 支持多種語言
Q
mam33
25
0
Liquid V1 7B
MIT
Liquid 是一種自迴歸生成範式,通過將圖像標記化為離散代碼並在共享特徵空間中學習這些代碼嵌入與文本標記,實現了視覺理解與生成的無縫融合。
文本生成圖像
Transformers 英語

L
Junfeng5
11.35k
84
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通過NF4量化策略降低顯存佔用,適用於顯存受限環境。
圖像生成文本
Transformers

M
Scoolar
1,259
1
Mini Image Captioning
Apache-2.0
一個基於bert-mini和vit-small的輕量級圖像字幕生成模型,僅重130MB,在CPU上運行速度極快。
圖像生成文本
Transformers 英語

M
cnmoro
292
3
Janus Pro 1B ONNX
MIT
Janus-Pro-1B 是一個多模態因果語言模型,支持文本到圖像、圖像到文本等多種任務。
文本生成圖像
Transformers

J
onnx-community
3,010
47
Longva 7B TPO
MIT
LongVA-7B-TPO是基於LongVA-7B通過時序偏好優化而來的視頻-文本模型,在長視頻理解任務中表現優異。
視頻生成文本
Transformers

L
ruili0
225
1
Hunyuanvideo HFIE
其他
騰訊混元視頻是一個文本生成視頻的模型,適配於Hugging Face推理端點。
文本生成視頻 英語
H
jbilcke-hf
21
1
Instructcir Llava Phi35 Clip224 Lp
Apache-2.0
InstructCIR是一個基於指令感知對比學習的組合式圖像檢索模型,採用ViT-L-224和Phi-3.5-Mini架構,專注於圖像文本到文本生成任務。
圖像生成文本
I
uta-smile
15
2
Captain Eris Violet V0.420 12B
其他
Captain Violet 是一個12B參數規模的合併模型,由Epiculous/Violet_Twilight-v0.2和Nitral-AI/Captain_BMO-12B通過mergekit工具合併而成,支持文本生成任務。
大型語言模型
Transformers 英語

C
Nitral-AI
445.12k
41
Cogvideox 2B LiFT
MIT
CogVideoX-2B-LiFT是基於獎勵加權學習方法對CogVideoX-1.5進行微調的文本到視頻生成模型
文本生成視頻 英語
C
Fudan-FUXI
21
1
Llama 3.2 11B Vision Radiology Mini
Apache-2.0
基於Unsloth優化的視覺指令微調模型,支持多模態任務處理
文本生成圖像
Transformers 英語

L
mervinpraison
39
2
Thaicapgen Clip Gpt2
基於CLIP編碼器和GPT2架構的編碼器-解碼器模型,用於生成泰語圖像描述
圖像生成文本 其他
T
Natthaphon
18
0
Janus 1.3B ONNX
其他
Janus-1.3B 是一個多模態因果語言模型,支持文本到圖像、圖像到文本以及圖像文本到文本的轉換任務。
文本生成圖像
Transformers

J
onnx-community
123
15
Omnigen V1
MIT
OmniGen是一個統一的圖像生成模型,支持多種圖像生成任務。
圖像生成
O
Shitao
5,886
309
Emu3 Stage1
Apache-2.0
Emu3是由北京智源研究院開發的多模態模型,僅通過預測下一個標記訓練而成,支持圖像、文本和視頻處理。
文本生成圖像
Transformers

E
BAAI
1,359
26
Sd15.ip Adapter.plus
Apache-2.0
基於IP-Adapter技術的圖像到圖像適配器,用於穩定擴散模型SD1.5,支持通過圖像提示生成藝術圖像。
圖像生成
Safetensors 其他
S
refiners
112
0
Swin Distilbertimbau
MIT
基於Swin Transformer和DistilBERTimbau的巴西葡萄牙語圖像描述生成模型
圖像生成文本
Transformers 其他

S
laicsiifes
18
3
Aim Xlarge
MIT
AiM是一個基於PyTorch的無條件圖像生成模型,通過PytorchModelHubMixin集成推送到Hugging Face Hub。
圖像生成
A
hp-l33
23
5
Show O W Clip Vit
MIT
Show-o 是一個基於 PyTorch 的任意到任意轉換模型,專注於多模態任務處理。
文本生成圖像
S
showlab
18
2
Show O
MIT
Show-o 是一個基於 PyTorch 的任意到任意轉換模型,支持多種模態的輸入和輸出轉換。
文本生成視頻
S
showlab
225
16
Cogflorence 2.2 Large
MIT
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練,標註文本由THUDM/cogvlm2-llama3-chat-19B生成,適用於圖像轉文本任務。
圖像生成文本
Transformers 支持多種語言

C
thwri
20.64k
33
Lumina Mgpt 7B 1024
Lumina-mGPT 是一個多模態自迴歸模型家族,擅長根據文本描述生成靈活逼真的圖像,並能執行多種視覺和語言任務。
文本生成圖像
L
Alpha-VLLM
27
9
Lumina Mgpt 7B 768
Lumina-mGPT 是一個多模態自迴歸模型家族,擅長根據文本描述生成靈活逼真的圖像,並能執行多種視覺與語言任務。
文本生成圖像
Transformers

L
Alpha-VLLM
1,944
33
Lumina Mgpt 7B 768 Omni
Lumina-mGPT 是一個多模態自迴歸模型系列,擅長根據文本描述生成靈活逼真的圖像。
文本生成圖像
Transformers

L
Alpha-VLLM
264
7
Cogflorence 2.1 Large
MIT
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行了訓練,標註由THUDM/cogvlm2-llama3-chat-19B生成,專注於圖像轉文本任務。
圖像生成文本
Transformers 支持多種語言

C
thwri
2,541
22
Latte 1
Apache-2.0
Latte是一個基於Transformer的潛在擴散模型,專注於文本生成視頻任務,支持多種數據集預訓練權重。
文本生成視頻
L
maxin-cn
1,027
19
Shotluck Holmes 1.5
Apache-2.0
Shot2Story-20K 是一個基於圖像生成文本的模型,能夠將輸入的圖像轉換為連貫的文本描述或故事。
圖像生成文本
Transformers 英語

S
RichardLuo
158
3
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98