2025年最高の 161 個のマルチモーダル融合ツール

Codebert Base
CodeBERTはプログラミング言語と自然言語向けの事前学習モデルで、RoBERTaアーキテクチャに基づいており、コード検索やコードからドキュメント生成などの機能をサポートします。
マルチモーダル融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発したマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語のテキストと画像インタラクションをサポート、17Bの活性化パラメータと109Bの総パラメータを有します。
マルチモーダル融合 Transformers 複数言語対応
L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoderは統一されたマルチモーダル事前学習モデルで、コードコメントや抽象構文木などのマルチモーダルデータを使用してコード表現を事前学習します。
マルチモーダル融合 Transformers 英語
U
microsoft
347.45k
51
TITAN
TITANは、病理学画像分析のための視覚的自己教師あり学習と視覚-言語アライメントによるマルチモーダル全スライド基礎モデルです。
マルチモーダル融合 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティを認識し、ストリーミング方式でテキストや自然な音声レスポンスを生成できます。
マルチモーダル融合 Transformers 英語
Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート
マルチモーダル融合 Transformers その他
M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発した17Bパラメータ/16エキスパート混合のマルチモーダルAIモデルで、12言語と画像理解をサポートし、業界をリードする性能を有しています。
マルチモーダル融合 Transformers 複数言語対応
L
chutesai
173.52k
2
Qwen2.5 Omni 3B
その他
Qwen2.5-Omniはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなど様々なモダリティ情報を認識し、ストリーミング方式でテキストと自然な音声応答を同期生成できます。
マルチモーダル融合 Transformers 英語
Q
Qwen
48.07k
219
One Align
MIT
Q-Alignはマルチタスク視覚評価モデルで、画像品質評価(IQA)、美的評価(IAA)、動画品質評価(VQA)に特化しており、ICML2024で発表されました。
マルチモーダル融合 Transformers
O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-Tは胸部X線画像と放射線レポートの分析に特化した視覚言語モデルで、時系列マルチモーダル事前学習により性能を向上させています。
マルチモーダル融合 Transformers 英語
B
microsoft
26.39k
35
Chameleon 7b
その他
MetaカメレオンはFAIRが開発した混合モーダル早期融合基盤モデルで、画像とテキストのマルチモーダル処理をサポートします。
マルチモーダル融合 Transformers
C
facebook
20.97k
179
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIPは革新的な手法で、大規模言語モデルによってCLIPのクロスモーダル能力を強化し、視覚とテキスト表現の識別力を大幅に向上させます。
マルチモーダル融合
L
microsoft
18.16k
35
Unixcoder Base Nine
Apache-2.0
UniXcoderは、コードコメントや抽象構文木などのマルチモーダルデータを活用してコード表現を事前学習する統一マルチモーダル事前学習モデルです。
マルチモーダル融合 Transformers 英語
U
microsoft
17.35k
19
Llama Guard 4 12B
その他
Llama Guard 4はネイティブマルチモーダルセキュリティ分類器で、120億のパラメータを持ち、テキストと複数画像を連携してトレーニングされ、大規模言語モデルの入力と出力のコンテンツセキュリティ評価に使用されます。
マルチモーダル融合 Transformers 英語
L
meta-llama
16.52k
30
Spatialvla 4b 224 Pt
MIT
SpatialVLAは110万の実ロボット操作シーンで訓練された空間拡張視覚言語動作モデルで、ロボット制御タスクに特化しています
マルチモーダル融合 Transformers 英語
S
IPEC-COMMUNITY
13.06k
5
Pi0
Apache-2.0
Pi0は汎用ロボット制御のための視覚-言語-動作フローモデルで、ロボット制御タスクをサポートします。
マルチモーダル融合
P
lerobot
11.84k
230
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7Bは、マルチベクトルの最先端マルチモーダル埋め込みモデルで、視覚文書検索タスクに優れ、多言語対応と統一テキスト画像エンコーディングをサポートします。
マルチモーダル融合 複数言語対応
C
nomic-ai
7,909
45
Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
その他
ラマ4スカウトはMetaが発表した170億パラメータの混合エキスパートモデル(MoE)で、多言語テキストと画像理解をサポートし、PEFT/LoRA互換性を考慮した線形化エキスパートモジュール設計を採用しています。
マルチモーダル融合 Transformers 複数言語対応
L
axolotl-quants
6,861
3
Cogact Base
MIT
CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。
マルチモーダル融合 Transformers 英語
C
CogACT
6,589
12
Llama 4 Maverick 17B 128E Instruct FP8
その他
Llama 4シリーズのネイティブマルチモーダルAIモデルで、テキストと画像の理解をサポートし、混合エキスパートアーキテクチャを採用し、商業および研究シーンに適しています。
マルチモーダル融合 Transformers 複数言語対応
L
RedHatAI
5,679
1
Colnomic Embed Multimodal 3b
ColNomic Embedマルチモーダル3Bは30億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスク向けに設計されており、多言語テキストと画像の統一エンコーディングをサポートします。
マルチモーダル融合 複数言語対応
C
nomic-ai
4,636
17
Llama Guard 3 11B Vision
Llama-3.2-11Bをファインチューニングしたマルチモーダルコンテンツセキュリティ分類器で、テキストと画像の混合有害コンテンツ検出に最適化
マルチモーダル融合 Transformers 複数言語対応
L
meta-llama
4,553
60
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 は、文書スクリーンショットを密なベクトルにエンコードして文書検索を実現するために設計されたデュアルエンコーダーモデルです。
マルチモーダル融合 複数言語対応
D
MrLight
4,447
56
Biomedclip Vit Bert Hf
MIT
PyTorchとHuggingfaceフレームワークで実装されたBiomedCLIPモデルで、オリジナルのmicrosoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224モデルを再現
マルチモーダル融合 Transformers 英語
B
chuhac
4,437
1
Ming Lite Omni
MIT
軽量級の統一多モーダリティモデルで、画像、テキスト、音声、ビデオなどの多様なモーダリティデータを効率的に処理し、音声と画像生成において優れた性能を発揮します。
マルチモーダル融合 Transformers
M
inclusionAI
4,215
103
Qwen2.5 Omni 7B GPTQ 4bit
MIT
Qwen2.5-Omni-7Bモデルをベースとした4ビットGPTQ量子化バージョンで、多言語およびマルチモーダルタスクをサポートします。
マルチモーダル融合 Safetensors 複数言語対応
Q
FunAGI
3,957
51
Taxabind Vit B 16
MIT
TaxaBindは6つのモダリティを含むマルチモーダル埋め込み空間モデルで、生態系アプリケーションに焦点を当て、分類学テキストカテゴリを使用して種の画像をゼロショット分類することをサポートします。
マルチモーダル融合
T
MVRL
3,672
0
GR00T N1 2B
NVIDIA Isaac GR00T N1は、汎用ヒューマノイドロボットの推論とスキル向けの世界初のオープンソース基盤モデルで、20億パラメータ規模を有しています。
マルチモーダル融合
G
nvidia
3,631
284
Hume System2
MIT
Hume-System2は、デュアルシステムのビジョン - 言語 - 行動(VLA)モデルのシステム2の事前学習重みで、システム2の学習を高速化し、ロボット分野の関連研究やアプリケーションにサポートを提供します。
マルチモーダル融合 Transformers 英語
H
Hume-vla
3,225
1
Llave 0.5B
Apache-2.0
LLaVEはLLaVA-OneVision-0.5Bモデルを基にしたマルチモーダル埋め込みモデルで、パラメータ規模は0.5B、テキスト、画像、複数画像、動画の埋め込みが可能です。
マルチモーダル融合 Transformers 英語
L
zhibinlan
2,897
7
Libero Object 1
MIT
Hume-Libero_Objectは、Libero-Objectデータセットで訓練されたデュアルシステム視覚-言語-動作モデルで、システム2の思考能力を備え、ロボット分野の研究と応用に適しています。
マルチモーダル融合 Transformers 英語
L
Hume-vla
2,836
0
Libero Goal 1
MIT
Hume-Libero_Goalは、デュアルシステム思考に基づくビジョン - 言語 - アクションモデルで、ロボットタスク用に設計され、System - 2思考を融合して決定能力を向上させています。
マルチモーダル融合 Transformers 英語
L
Hume-vla
2,698
1
Rdt 1b
MIT
100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート
マルチモーダル融合 Transformers 英語
R
robotics-diffusion-transformer
2,644
80
Openvla 7b Oft Finetuned Libero Spatial
MIT
OpenVLA - OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの実行速度とタスク成功率を大幅に向上させています。
マルチモーダル融合 Transformers
O
moojink
2,513
3
Llama 4 Scout 17B 16E Unsloth Bnb 4bit
その他
Llama 4 ScoutはMetaが開発したマルチモーダル混合専門家モデルで、12言語と画像理解をサポートし、170億の活性化パラメータと10Mのコンテキスト長を備えています。
マルチモーダル融合 Transformers 複数言語対応
L
unsloth
2,492
1
Omniembed V0.1
MIT
Qwen2.5-Omni-7Bをベースに構築されたマルチモーダル埋め込みモデルで、多言語テキスト、画像、音声、動画の統一された埋め込み表現をサポート
マルチモーダル融合
O
Tevatron
2,190
3
Llama 4 Maverick 17B 128E Instruct FP8
その他
Llama 4 MaverickはMetaが開発したネイティブマルチモーダルAIモデルで、ハイブリッドエキスパートアーキテクチャを採用し、テキストと画像の入力をサポートし、多言語のテキストとコードを出力します。
マルチモーダル融合 Transformers 複数言語対応
L
chutesai
2,019
0
Llama 4 Scout 17B 16E Unsloth Dynamic Bnb 4bit
その他
Llama 4 ScoutはMetaが発表した170億パラメータの混合エキスパートアーキテクチャを採用したマルチモーダルモデルで、12言語と画像理解をサポート
マルチモーダル融合 Transformers 複数言語対応
L
unsloth
1,935
2
Llama 4 Scout 17B 16E Instruct INT4
その他
Llama 4シリーズはMetaが開発したネイティブマルチモーダルAIモデルで、ハイブリッドエキスパートアーキテクチャを採用し、テキストと画像のインタラクションをサポートし、様々な言語とビジュアルタスクで卓越した性能を発揮します。
マルチモーダル融合 Transformers 複数言語対応
L
fahadh4ilyas
1,864
0
Llama 4 Scout 17B 16E Instruct FP8
その他
Llama 4シリーズはMetaが開発したネイティブマルチモーダルAIモデルで、テキストと画像のインタラクションをサポートし、ハイブリッドエキスパートアーキテクチャを採用しており、テキストと画像の理解において卓越した性能を発揮します。
マルチモーダル融合 Transformers 複数言語対応
L
fahadh4ilyas
1,760
0
Eagle X5 13B Chat
鷹(Eagle)は、ビジュアルを中心とした一連の高解像度マルチモーダル大規模言語モデルで、1Kを超える入力解像度をサポートし、光学文字認識や文書理解などのタスクで優れた性能を発揮します。
マルチモーダル融合 Transformers
E
NVEagle
1,748
28
Llama Guard 3 11B Vision
Llama-3.2-11Bに基づくマルチモーダルコンテンツセキュリティ分類モデルで、有害なテキスト/画像入力および応答の検出をサポートします。
マルチモーダル融合 Transformers 複数言語対応
L
SinclairSchneider
1,725
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase