# クロスモーダル理解

Qwen2.5 Omni 7B GGUF
その他
Qwen2.5-Omni-7B-GGUF は Qwen2.5-Omni-7B モデルの GGUF フォーマット版で、テキスト、音声、画像を含むマルチモーダル入力をサポートします。
大規模言語モデル 英語
Q
ggml-org
319
3
Internvl3 78B Hf
その他
InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
40
1
Cephalo Gemma 3 4b It 04 16 2025
Cephalo-Gemma-3-4b は生体材料とクモの糸の分析に特化した視覚言語モデルで、Gemma アーキテクチャを基にファインチューニングされています。
画像生成テキスト Transformers
C
lamm-mit
17
1
Qwen2.5 Omni 7B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。
マルチモーダル融合 Transformers 英語
Q
Qwen
206.20k
1,522
Centurio Aya
Centurio はオープンソースの多言語大規模視覚言語モデルで、100言語をサポートし、画像テキストからテキストへの処理能力を備えています。
画像生成テキスト Transformers 複数言語対応
C
WueNLP
29
4
VITA 1.5
VITA-1.5はマルチモーダルインタラクションモデルで、GPT-4oレベルのリアルタイム視覚と音声インタラクション能力を実現することを目的としています。
V
VITA-MLLM
345
40
Aimv2 Large Patch14 224 Distilled
AIMv2はマルチモーダル自己回帰目標事前学習による視覚モデルシリーズで、マルチモーダル理解ベンチマークで優れた性能を発揮します。
画像分類
A
apple
236
0
Thaicapgen Clip Gpt2
CLIPエンコーダーとGPT2アーキテクチャに基づくエンコーダー-デコーダーモデルで、タイ語の画像キャプションを生成
画像生成テキスト その他
T
Natthaphon
18
0
Vila U 7b 256
MIT
VILA-Uは視覚言語理解と生成タスクを統一的に処理する基盤モデルで、単一の自己回帰フレームワークによる効率的なマルチモーダル処理を実現します。
テキスト生成画像
V
mit-han-lab
127
21
AA Chameleon 7b Plus
これは強力なテキストと画像の交互入出力モデルで、アライメント万能アルゴリズムによる深いアライメントを行い、画像生成能力と人間の嗜好へのアライメント能力を向上させています。
テキスト生成画像 Transformers 英語
A
PKU-Alignment
34
5
Chameleon 30b
その他
MetaカメレオンはFAIRが開発したマルチモーダル早期融合基盤モデルで、画像とテキストのマルチモーダル処理をサポートします。
マルチモーダル融合 Transformers
C
facebook
102
86
Final Model
Apache-2.0
このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。
文字認識 Transformers
F
goatrider
17
0
CSUMLM
Apache-2.0
CSUMLMはマルチモーダルAIエンジンと大規模言語モデルの利点を統合した最先端の人工知能システムで、マルチモーダル処理、複雑な言語理解、リアルタイム学習能力を備えています。
マルチモーダル融合 Transformers 複数言語対応
C
Or4cl3-1
35
1
Finetuned Blip Chest Xrays
Bsd-3-clause
深層学習に基づく画像からテキストへの変換モデルで、入力画像に対して記述的なキャプションを生成できます。
画像生成テキスト Transformers 英語
F
daniyal214
33
0
Blip Image Captioning Large
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成と理解タスクに優れており、ガイド付きアノテーション戦略によりウェブデータを効率的に活用
画像生成テキスト Transformers
B
movementso
18
0
General Image Captioning
Apache-2.0
これはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。
文字認識 Transformers その他
G
alibidaran
30
0
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
これはDataComp-1BデータセットでOpenCLIPを使用して訓練されたCLIP ViT-B/16モデルで、主にゼロショット画像分類と画像テキスト検索に使用されます。
テキスト生成画像
C
laion
4,461
7
Pix2struct Docvqa Base
Apache-2.0
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。
画像生成テキスト Transformers 複数言語対応
P
google
8,601
37
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。
画像生成テキスト
M
laion
21.02k
20
Vinvl Base Image Captioning
Apache-2.0
マイクロソフトのVinVL基礎事前学習モデルで、画像キャプション生成タスク向けに設計されており、強力な視覚-言語理解能力を備えています。
画像生成テキスト
V
michelecafagna26
45
1
Chinese Clip Vit Large Patch14 336px
中国語CLIPは約2億組の中国語画像テキストペアデータセットに基づくCLIPの簡易実装で、ViT-L/14@336pxを画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして採用しています。
テキスト生成画像 Transformers
C
OFA-Sys
713
23
Veld Base
Apache-2.0
韓国語と英語をサポートする事前学習済み視覚エンコーダテキストデコーダモデル
画像生成テキスト Transformers 複数言語対応
V
KETI-AIR
40
0
Molt5 Base
Apache-2.0
molt5-base は T5 アーキテクチャに基づくモデルで、分子と自然言語間の翻訳タスクに特化しています。
機械翻訳 Transformers
M
laituan245
3,617
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase