# 多模態轉換

Index Anisora 5B Diffusers
Apache-2.0
基於Diffusers實現的圖像生成視頻模型,5B參數規模
文本生成視頻
I
Disty0
82
1
Hunyuanvideo I2V
騰訊HunyuanVideo-I2V是一個基於Diffusers的圖像轉視頻模型,能夠將靜態圖像轉換為動態視頻。
圖像生成文本
H
hunyuanvideo-community
496
2
Minicpm O 2 6 GGUF
MiniCPM-o-2_6 是一個多模態轉換模型,支持多種語言,適用於多種任務。
文本生成圖像 其他
M
second-state
506
6
Rexseek 3B
其他
這是一個圖像文本到文本的轉換模型,能夠處理圖像和文本輸入,生成相應的文本輸出。
文本生成圖像 Transformers
R
IDEA-Research
186
4
Ioskef 23 11 06
MIT
這是為OMEGA Labs與Bittensor合作的任意到任意子網提供的模型檢查點,旨在實現通用人工智能任務。
大型語言模型 其他
I
louistvc
0
0
Kljrklqejr 23 11 24
MIT
由OMEGA Labs與Bittensor合作開發的任意到任意轉換模型,專注於人工通用智能領域。
大型語言模型 其他
K
iekei
0
0
Kljrklqejr 23 11 23
MIT
由OMEGA Labs與Bittensor合作開發的Any-to-Any模型,支持多種任務轉換
大型語言模型 其他
K
iekei
0
0
Ioskef 23 11 05
MIT
OMEGA Labs與Bittensor合作的任意到任意子網模型,專注於通用人工智能任務。
大型語言模型 其他
I
louistvc
0
0
Vit GPT2 Image Captioning Model
基於ViT-GPT2架構的圖像描述生成模型,能夠將輸入圖像轉換為描述性文本
圖像生成文本 Transformers
V
motheecreator
142
0
Vchitect 2.0 2B
Apache-2.0
Vchitect-2.0是一個用於擴展視頻擴散模型的並行Transformer模型,專注於文本生成視頻和圖像生成視頻任務。
視頻處理
V
Vchitect
50
38
4M 21 B
其他
4M是一個通過標記化與掩碼技術實現多模態擴展的'任意到任意'基礎模型訓練框架
多模態融合
4
EPFL-VILAB
324
6
Image Model
這是一個基於transformers的圖像到文本轉換模型,具體功能需進一步補充
圖像生成文本 Transformers
I
Mouwiya
15
0
4M 7 SR L CC12M
其他
4M是一個可擴展的多模態掩碼建模框架,支持任意到任意模態轉換,覆蓋數十種模態和任務。
多模態融合
4
EPFL-VILAB
26
2
4M 7 B CC12M
其他
4M是一個訓練'任意到任意'多模態基礎模型的框架,通過標記化和掩碼技術擴展到多種不同模態。
多模態融合
4
EPFL-VILAB
209
16
Spydazwebai Image Projectors
一個基於 Transformers 庫的圖像轉文本模型,支持將圖像內容轉換為描述性文本,適用於藝術領域。
圖像生成文本 支持多種語言
S
LeroyDyer
560
1
Hashtaggenerater
Flickr30k 是一個用於圖像到文本任務的英文數據集,常用於圖像描述生成模型的訓練和評估。
圖像生成文本 Transformers 英語
H
kusumakar
24
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase