# マルチモーダル融合

Wan2.1 T2V 14B FusionX GGUF
Apache-2.0
これはテキストから動画への量子化モデルで、基礎モデルをGGUF形式に変換し、ComfyUIで使用でき、テキストから動画生成により多くの選択肢を提供します。
テキスト生成ビデオ 英語
W
QuantStack
563
2
Wan2.1 14B T2V FusionX FP8 GGUF
Apache-2.0
これはvrgamedevgirl84/Wan14BT2VFusionXモデルに基づくGGUF変換バージョンで、主にテキストから動画生成タスクに使用されます。
テキスト生成ビデオ
W
lym00
490
4
Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AVはマルチモーダル大規模言語モデルで、視聴覚質問応答タスクに特化しており、動画と音声の入力を同時に処理し、高品質な質問応答と記述生成が可能です。
ビデオ生成テキスト Transformers 英語
V
lym0302
34
0
Hunyuanvideo I2V
その他
混元ビデオ - I2Vは、全く新しい画像から動画への生成フレームワークで、騰訊の混元ビデオモデルを拡張したもので、静止画像から高品質の動画コンテンツを生成することができます。
H
tencent
3,272
305
Vit Bart Image Captioner
Apache-2.0
BART-LargeとViTを基にした視覚言語モデルで、画像の英語説明文を生成します。
画像生成テキスト Safetensors 英語
V
SrujanTopalle
15
1
SD3.5 Large IP Adapter
その他
これはSD3.5-Largeモデルを基にしたIPアダプターで、画像を入力条件としてテキストプロンプトと共に新しい画像を生成できます。
テキスト生成画像 英語
S
InstantX
1,474
106
Sdxl.ip Adapter
Apache-2.0
IP-Adapterはテキストから画像への拡散モデル用の画像プロンプトアダプタで、画像プロンプトとテキストプロンプトを組み合わせて使用でき、生成画像の関連性と品質を向上させます。
テキスト生成画像 その他
S
refiners
18
0
AA Chameleon 7b Base
テキストと画像の入出力を交互にサポートするマルチモーダルモデルで、カメレオン7Bモデルをベースにアライメント・オブ・エブリシングフレームワークで画像生成能力を強化
テキスト生成画像 Transformers 英語
A
PKU-Alignment
105
8
Linfusion XL
LinFusionは拡散モデルベースのテキストから画像生成モデルで、入力されたテキスト記述に基づき高品質な画像を生成できます。
テキスト生成画像
L
Yuanshi
37
7
AV HuBERT
MuAViCデータセットに基づく多言語視聴音声認識モデル、音声と視覚モダリティを組み合わせた頑健な性能を実現
音声生成テキスト Transformers
A
nguyenvulebinh
683
3
Chattime 1 7B Base
Apache-2.0
ChatTimeは革新的なマルチモーダル時系列基盤モデルで、時系列を外国語としてモデル化し、時系列とテキストの双方向入出力を統一的に処理します。
マルチモーダル融合 Transformers
C
ChengsenWang
700
4
Consistentid
MIT
ConsistentIDはマルチモーダルな細粒度アイデンティティ維持を実現したポートレート生成モデルで、極めて高いアイデンティティ忠実度のポートレートを生成可能でありながら、多様性とテキスト制御性も損ないません。
テキスト生成画像 その他
C
JackAILab
176
8
Music Generation Model
Apache-2.0
これはテキスト生成モデルと音楽生成モデルを統合して作成されたハイブリッドモデルで、テキスト生成と音楽生成の両方のタスクを処理できます。
テキスト生成オーディオ Transformers
M
nagayama0706
27
1
Instructblip Flan T5 Xxl 8bit
MIT
BLIP-2はFlan T5-xxlを基にした視覚-言語モデルで、画像エンコーダーと大規模言語モデルを凍結して事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
画像生成テキスト Transformers 英語
I
Mediocreatmybest
18
1
YOLO LLaMa 7B VisNav
その他
このプロジェクトはYOLO物体検出モデルとLLaMa 2 7b大規模言語モデルを統合し、視覚障害者の日常移動を支援するナビゲーションサポートを目的としています。
マルチモーダル融合 Transformers
Y
LearnItAnyway
19
1
Timesformer Bert Video Captioning
TimesformerとBERTアーキテクチャに基づくビデオ字幕生成モデルで、ビデオコンテンツに記述的な字幕を生成できます。
ビデオ生成テキスト Transformers
T
AlexZigma
83
3
Blip2 Flan T5 Xxl
MIT
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。
画像生成テキスト Transformers 英語
B
LanguageMachines
22
1
Fusecap Image Captioning
MIT
FuseCapは、意味的に豊かな画像説明を生成するために設計されたフレームワークで、大規模言語モデルを活用して画像説明を融合生成します。
画像生成テキスト Transformers
F
noamrot
2,771
22
Raos Virtual Try On Model
Openrail
安定拡散フレームワークを基盤としたバーチャルフィッティングシステムで、DreamBoothトレーニング、EfficientNetB3特徴抽出、OpenPose姿勢検出技術を統合
画像生成
R
gouthaml
258
41
Bbsnet
MIT
BBS-NetはRGB-D顕著物体検出のための深層学習モデルで、分岐バックボーン戦略のネットワーク構造を採用し、RGB画像と深度画像データを効果的に処理できます。
画像セグメンテーション Transformers
B
RGBD-SOD
21
3
Blip2 Flan T5 Xxl
MIT
BLIP-2は画像エンコーダーと大規模言語モデルFlan T5-xxlを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。
画像生成テキスト Transformers 英語
B
Salesforce
6,419
88
Blip2 Opt 2.7b Coco
MIT
BLIP-2は、画像エンコーダーと大規模言語モデルを凍結することで、言語-画像事前学習を導く視覚-言語事前学習モデルです。
画像生成テキスト Transformers 英語
B
Salesforce
3,900
9
Blip2 Opt 6.7b
MIT
BLIP-2はOPT-6.7bベースの視覚言語モデルで、画像エンコーダーと大規模言語モデルを凍結してプレトレーニングされ、画像からテキスト生成や視覚的質問応答などのタスクをサポートします。
画像生成テキスト Transformers 英語
B
Salesforce
5,871
76
Blip2 Flan T5 Xl
MIT
BLIP-2はFlan T5-xlを基にした視覚言語モデルで、画像エンコーダーと大規模言語モデルの重みを凍結した状態で事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
画像生成テキスト Transformers 英語
B
Salesforce
91.77k
68
Wavyfusion
Openrail
安定拡散ベースのテキストから画像生成モデル、クリエイティブな画像生成をサポート
画像生成 英語
W
wavymulder
454
170
Lilt Infoxlm Base
MIT
LiLT-InfoXLMは言語非依存のレイアウトトランスフォーマーモデルで、事前学習済みのInfoXLMと言語非依存レイアウトトランスフォーマー(LiLT)を組み合わせたもので、構造化ドキュメント理解タスクに適しています。
マルチモーダル融合 Transformers
L
SCUT-DLVCLab
110
5
Macbert Ngram Miao
Transformerアーキテクチャに基づく大規模言語モデルで、様々な自然言語処理タスクをサポートします。
大規模言語モデル
M
miaomiaomiao
22
0
Wav2vec2 2 Bart Large
このモデルは、wav2vec2-large-lv60とbart-largeをベースに、librispeech_asr - cleanデータセットで微調整された自動音声認識(ASR)モデルです。
音声認識 Transformers
W
patrickvonplaten
31
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase