# クロスモーダル推論

Gemma 3n E4B It
Gemma 3nはGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築され、テキスト、オーディオ、ビジュアル入力をサポートします。
画像生成テキスト Transformers
G
google
1,690
81
Ristretto 3B
Apache-2.0
Ristrettoは革新的な視覚言語モデルで、動的画像トークン配置技術を採用し、タスクの要求に応じて画像トークン数を柔軟に調整でき、性能と多機能性において前世代製品を凌駕します。
画像生成テキスト Transformers 複数言語対応
R
LiAutoAD
732
2
Qwen2 VL 2B Instruct
Apache-2.0
Qwen2-VL-2B-Instruct はマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers 英語
Q
FriendliAI
24
1
Rexseek 3B
その他
これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。
テキスト生成画像 Transformers
R
IDEA-Research
186
4
Aya Vision 32b
Aya Vision 32BはCohereラボが開発したオープンウェイト32Bパラメータのマルチモーダルモデルで、23言語の視覚言語タスクをサポートします。
画像生成テキスト Transformers 複数言語対応
A
CohereLabs
387
193
Chattime 1 7B Chat
Apache-2.0
ChatTimeは時系列データとテキストを統一的に処理するマルチモーダル基盤モデルで、ゼロショット予測能力を備え、時系列とテキストの双方向入出力をサポートします。
マルチモーダル融合 Transformers
C
ChengsenWang
1,621
2
Chemvlm 26B
MIT
ChemVLMは化学分野に特化したマルチモーダル大規模言語モデルで、テキストと画像処理能力を統合しています。
画像生成テキスト Transformers
C
AI4Chem
53
21
Chameleon 7b
その他
MetaカメレオンはFAIRが開発した混合モーダル早期融合基盤モデルで、画像とテキストのマルチモーダル処理をサポートします。
マルチモーダル融合 Transformers
C
facebook
20.97k
179
Eilev Blip2 Opt 2.7b
MIT
BLIP-2-OPT-2.7Bを基に訓練された一人称視点ビデオ最適化視覚言語モデル、EILEV革新手法でコンテキスト学習能力を喚起
画像生成テキスト Transformers 英語
E
kpyu
214
4
Cogvlm Chat Hf
Apache-2.0
CogVLMは強力なオープンソースの視覚言語モデルで、複数のクロスモーダルベンチマークでリーダーボード性能を達成
テキスト生成画像 Transformers 英語
C
THUDM
4,816
193
Pix2struct Infographics Vqa Large
Apache-2.0
Pix2Structは画像エンコーダ-テキストデコーダモデルで、マルチタスク訓練により視覚言語理解タスクを処理し、特に高解像度インフォグラフィックの視覚的質問応答に最適化されています。
画像生成テキスト Transformers 複数言語対応
P
google
108
10
Layoutlmv3 Base Mpdocvqa
このモデルは、マイクロソフトのLayoutLMv3事前学習モデルを基に、マルチページドキュメントQA(MP-DocVQA)データセットでファインチューニングされたドキュメント視覚QAモデルです。
テキスト生成画像 Transformers 英語
L
rubentito
664
9
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase