モデル選定

マルチモーダル大規模モデル

# マルチモーダル大規模モデル

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

Qwen2.5-VL-72B-Instructを基に改良された視覚言語モデルで、複数の視覚推論ベンチマークで優れた性能を発揮

テキスト生成画像英語

Heron NVILA Lite 33B

Heron-NVILA-Lite-33B はNVILA-Liteアーキテクチャに基づき、日本語に特化してトレーニングされたビジュアルランゲージモデルで、日本語と英語のマルチモーダルタスクをサポートします。

画像生成テキスト複数言語対応

Finetune VQA 1B

InternVL3-1BとVintern-1B-v3_5を基にファインチューニングした視覚質問応答モデルで、ベトナム語をサポートし、画像内容理解と質問応答タスクに適しています。

テキスト生成画像その他

Emova Qwen 2 5 3b

EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。

マルチモーダル融合

Transformers 複数言語対応

Internvl3 2B Hf

InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。

画像生成テキスト

Transformers その他

Internvl3 1B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Internvl3 78B Pretrained

InternVL3-78BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、卓越した総合性能を発揮します。前世代のInternVL 2.5と比較し、より強力なマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの新領域に能力を拡張しています。

テキスト生成画像

Transformers その他

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged

アラビア語の光学文字認識（OCR）に特化して設計されたビジュアル言語モデルで、画像内のアラビア語文字を直接認識できます。

画像生成テキスト

Qwen2.5 Omni 7B GPTQ 4bit

Qwen2.5-Omni-7Bモデルをベースとした4ビットGPTQ量子化バージョンで、多言語およびマルチモーダルタスクをサポートします。

マルチモーダル融合

Safetensors 複数言語対応

Internvl 2 5 HiCo R16

InternVideo2.5は、長く豊富な文脈（LRC）モデリングを強化したビデオマルチモーダル大規模言語モデル（MLLM）で、InternVL2.5上に構築されています。

テキスト生成ビデオ

Transformers 英語

Internvideo2 5 Chat 8B

InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。

ビデオ生成テキスト

Transformers 英語

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OLは、長時間ストリーミング映像と音声のインタラクションをサポートする全方位マルチモーダルシステムです。

テキスト生成画像

Mplug Owl3 7B 241101

mPLUG-Owl3は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンスの理解問題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長のサポートを大幅に向上させます。

テキスト生成画像英語

Llm Jp 3 Vila 14b

国立情報学研究所によって開発された大規模視覚言語モデルで、日本語と英語をサポートし、強力な画像理解とテキスト生成能力を備えています。

画像生成テキスト

Safetensors 日本語

Pixtral 12B Captioner Relaxed

Pixtral-12B-2409マルチモーダル大規模言語モデルを基にした命令微調整版で、与えられた画像に対してより豊富な詳細記述を生成可能

画像生成テキスト

Transformers 英語

mPLUG-DocOwl2はOCR不要の複数ページ文書理解マルチモーダル大規模言語モデルで、高解像度文書圧縮器により文書内容を効率的にエンコードします。

画像生成テキスト英語

ChartMoEはInternLM-XComposer2を基にしたマルチモーダル大規模言語モデルで、専門家混合コネクタを採用し、高度なチャート機能を備えています。

画像生成テキスト

カンガルーは長編動画理解のために設計された強力なマルチモーダル大規模言語モデルで、中国語と英語のバイリンガル対話と長編動画入力に対応しています。

ビデオ生成テキスト

Transformers 複数言語対応

Xgen Mm Phi3 Mini Base R V1

XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。

画像生成テキスト

Transformers 英語

Internlm Xcomposer2 Vl 1 8b

InternLM2ベースの視覚-言語大規模モデルで、優れた画像理解と創作能力を備えています

テキスト生成画像

Internlm Xcomposer2 Vl 7b

InternLM-XComposer2はInternLM2を基に開発された視覚-言語大規模モデルで、卓越した画像テキスト理解と創作能力を備えています。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase