# クロスモーダル変換

Wan2.1 T2V 14B FusionX VACE GGUF
Apache-2.0
これはテキストからビデオへの量子化モデルで、特定の基礎モデルに基づいて量子化変換が行われ、さまざまなビデオ生成タスクをサポートします。
テキスト生成ビデオ 英語
W
QuantStack
461
3
Magma 8B GGUF
MIT
Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。
画像生成テキスト
M
Mungert
545
1
Hicode R1 Distill Gemma 12B Q8.GGUF
Apache-2.0
Apache-2.0ライセンスに基づく画像テキスト変換モデルで、画像からテキスト情報を抽出し編集可能なテキスト形式に変換できます。
画像生成テキスト
H
tonyli8623
24
1
X2I
Apache-2.0
X2Iはマルチモーダル拡散Transformerモデルで、テキスト、画像、動画、音声、音声など複数の入力モダリティを画像出力に変換できます。
テキスト生成画像 その他
X
OPPOer
435
7
Chitrarth
その他
Chitrarthは多言語視覚言語モデルで、視覚と言語を結びつけることを目的としており、特にインドの多様な言語のサポートに重点を置いています。
画像生成テキスト 複数言語対応
C
krutrim-ai-labs
410
11
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
このモデルは入力された画像を記述的なテキストに変換することができ、様々なシーンでの画像理解タスクに適用できます。
画像生成テキスト Transformers
I
pltnhan311
18
0
Best Model ViTB16 GPT2
ビジョントランスフォーマー(ViT)とGPT-2を基にしたクロスモーダルモデルで、入力画像に対する自然言語の説明を生成可能
画像生成テキスト Transformers 複数言語対応
B
evlinzxxx
15
0
Git Base Minecraft
MIT
これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。
画像生成 Transformers 複数言語対応
G
orzhan
22
0
Seamless M4t V2 Large
SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ Transformers 複数言語対応
S
facebook
64.59k
821
Pix2struct Tiny Random
MIT
これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。
画像生成テキスト Transformers
P
fxmarty
60.87k
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase