# マルチモーダル変換

Index Anisora 5B Diffusers
Apache-2.0
Diffusersで実装された画像生成動画モデル、5Bパラメータ規模
テキスト生成ビデオ
I
Disty0
82
1
Hunyuanvideo I2V
TencentのHunyuanVideo-I2Vは、Diffusersベースの画像から動画への変換モデルで、静止画像を動画に変換できます。
画像生成テキスト
H
hunyuanvideo-community
496
2
Google.gemma 3 4b Pt GGUF
これは画像テキストをテキストに変換するモデルで、google/gemma-3-4b-ptの量化バージョンに基づいており、知識を大衆に共有することを目指しています。
大規模言語モデル
G
DevQuasar
212
0
Minicpm O 2 6 GGUF
MiniCPM-o-2_6 はマルチモーダル変換モデルで、複数の言語をサポートし、様々なタスクに適しています。
テキスト生成画像 その他
M
second-state
506
6
Rexseek 3B
その他
これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。
テキスト生成画像 Transformers
R
IDEA-Research
186
4
Ioskef 23 11 06
MIT
これはOMEGA LabsとBittensorが協力して開発した任意から任意へのサブネット向けのモデルチェックポイントで、汎用人工知能タスクを実現することを目的としています。
大規模言語モデル その他
I
louistvc
0
0
Kljrklqejr 23 11 24
MIT
OMEGA LabsとBittensorが共同開発した任意から任意への変換モデルで、人工汎用知能分野に焦点を当てています。
大規模言語モデル その他
K
iekei
0
0
Kljrklqejr 23 11 23
MIT
OMEGA LabsとBittensorが共同開発したAny-to-Anyモデルで、複数のタスク変換をサポート
大規模言語モデル その他
K
iekei
0
0
Ioskef 23 11 05
MIT
OMEGA LabsとBittensorが協力して開発した任意から任意サブネットモデルで、汎用人工知能タスクに特化しています。
大規模言語モデル その他
I
louistvc
0
0
Vit GPT2 Image Captioning Model
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像を記述テキストに変換可能
画像生成テキスト Transformers
V
motheecreator
142
0
Vchitect 2.0 2B
Apache-2.0
Vchitect-2.0はテキストから動画生成や画像から動画生成タスクに特化した、動画拡散モデルを拡張するための並列Transformerモデルです。
動画処理
V
Vchitect
50
38
Sd3 Long Captioner
Apache-2.0
PaliGemma 224x224をgoogle/docciとgoogle/imageinwordsデータセットで微調整したバージョンで、画像テキストからテキストへの変換に使用されます。
画像生成テキスト Transformers 複数言語対応
S
gokaygokay
1,771
25
4M 21 B
その他
4Mはトークン化とマスキング技術によりマルチモーダル拡張を実現する'任意から任意へ'の基盤モデルトレーニングフレームワーク
マルチモーダル融合
4
EPFL-VILAB
324
6
Image Model
これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります
画像生成テキスト Transformers
I
Mouwiya
15
0
4M 7 SR L CC12M
その他
4Mは拡張可能なマルチモーダルマスクモデリングフレームワークで、任意から任意へのモーダル変換をサポートし、数十のモーダルとタスクをカバーします。
マルチモーダル融合
4
EPFL-VILAB
26
2
4M 7 B CC12M
その他
4Mは'任意から任意'のマルチモーダル基盤モデルを訓練するフレームワークで、トークン化とマスキング技術により複数の異なるモーダルに拡張可能です。
マルチモーダル融合
4
EPFL-VILAB
209
16
Spydazwebai Image Projectors
Transformersライブラリをベースにした画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換し、アート分野に適しています。
画像生成テキスト 複数言語対応
S
LeroyDyer
560
1
Hashtaggenerater
Flickr30kは、画像からテキストへのタスクのための英語データセットで、画像キャプション生成モデルのトレーニングや評価によく使用されます。
画像生成テキスト Transformers 英語
H
kusumakar
24
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase