# マルチモーダルトランスフォーマー

My Model
MIT
GITはトランスフォーマーベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。
画像生成テキスト PyTorch 複数言語対応
M
anoushhka
87
0
Spaceexploreai Small Base Regression 27M
Apache-2.0
深層学習に基づく投資予測システムで、Transformerアーキテクチャを採用し、DeepSeep-V3とLLama3の設計構造を融合させ、株価の動向予測とテクニカル分析に使用されます。
大規模言語モデル 複数言語対応
S
NEOAI
57
4
Microsoft Git Base
MIT
GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。
画像生成テキスト 複数言語対応
M
seckmaster
18
0
Stable Diffusion 3.5 Large Turbo
その他
マルチモーダル拡散トランスフォーマー(MMDiT)を基盤としたテキストから画像を生成するモデルで、敵対的拡散蒸留(ADD)技術を採用し、画像品質、レイアウト、複雑なプロンプト理解能力を向上させています。
テキスト生成画像 英語
S
stabilityai
57.11k
581
Git Large Coco
MIT
GITはTransformerベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。
画像生成テキスト Transformers 複数言語対応
G
alexgk
25
0
Git Base Finetune
MIT
GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。
画像生成テキスト Transformers 複数言語対応
G
wangjin2000
18
0
Textcaps Teste2
MIT
GITはTransformerベースの画像からテキスト生成モデルで、大規模な画像-テキストペアで訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。
画像生成テキスト Transformers 複数言語対応
T
artificialguybr
26
3
Git Large R Textcaps
MIT
GITは、画像キャプション生成や視覚的質問応答などのタスク向けに、CLIP画像トークンとテキストトークンの二条件トランスフォーマーデコーダーを基にしています。
画像生成テキスト Transformers 複数言語対応
G
microsoft
51
10
Git Large R Coco
MIT
GITはTransformerベースの生成的画像テキストモデルで、画像から記述的なテキストを生成できます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
86
10
Git Large Vatex
MIT
GITはCLIP画像トークンとテキストトークンの条件付けに基づくトランスフォーマーデコーダーで、画像やビデオの記述生成、視覚的質問応答などのタスクに使用されます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
267
1
Git Large Textvqa
MIT
GITはTransformerデコーダーベースの視覚言語モデルで、CLIP画像トークンとテキストトークンの二重条件付けで訓練され、TextVQAタスクに最適化されています。
画像生成テキスト Transformers 複数言語対応
G
microsoft
62
4
Git Large Vqav2
MIT
GITはCLIP画像トークンとテキストトークンに基づくトランスフォーマーデコーダーで、大量の画像-テキストペアで訓練され、視覚的質問応答などのタスクに適しています。
画像生成テキスト Transformers 複数言語対応
G
microsoft
401
17
Git Large Textcaps
MIT
GITは、画像キャプション生成や視覚的質問応答などのタスクのための、Transformerベースのデュアルコンディションデコーダーモ型です。
画像生成テキスト Transformers 複数言語対応
G
microsoft
1,749
28
Git Large Coco
MIT
GITはTransformerデコーダーベースの視覚言語モデルで、画像キャプション生成や視覚的質問応答が可能
画像生成テキスト Transformers 複数言語対応
G
microsoft
6,582
103
Git Base Vatex
MIT
GITはTransformerベースの生成的画像からテキストへの変換モデルで、ベースバージョンはVATEXデータセットでファインチューニングされており、画像や動画の字幕生成などのタスクに適しています。
画像生成テキスト Transformers 複数言語対応
G
microsoft
752
4
Git Large
MIT
GITはCLIP画像トークンとテキストトークンの双条件トランスフォーマーデコーダーで、画像からテキストへの生成タスクに使用されます
画像生成テキスト Transformers 複数言語対応
G
microsoft
1,404
15
Git Base Vqav2
MIT
GITはTransformerデコーダーベースの視覚言語モデルで、CLIP画像トークンとテキストトークンの条件付きトレーニングにより、画像キャプション生成や視覚的質問応答などのタスクに適しています。
画像生成テキスト Transformers 複数言語対応
G
microsoft
199
19
Git Base Textcaps
MIT
GITはTransformerベースの生成的画像からテキストへのモデルで、視覚的コンテンツを記述的なテキストに変換できます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
482
8
Git Base Coco
MIT
GITはCLIP画像トークンとテキストトークンに基づくトランスフォーマーデコーダーで、画像キャプション生成や視覚的質問応答などのタスクに使用されます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
5,461
19
Vision Perceiver Conv
Apache-2.0
ImageNetで事前学習された汎用視覚パーシバーモデルで、畳み込み前処理とトランスフォーマーアーキテクチャを採用し、画像分類タスクをサポート
画像分類 Transformers
V
deepmind
7,127
6
S2t Small Mustc En Es St
MIT
英語からスペイン語へのエンドツーエンド音声翻訳のための音声テキスト変換モデル
音声認識 Transformers 複数言語対応
S
facebook
20
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase