モデル選定

マルチモーダル大規模言語モデル

# マルチモーダル大規模言語モデル

SAILは視覚と言語のために設計された単一Transformerモデルで、統一されたマルチモーダル大規模言語モデル（MLLM）として、単一アーキテクチャ内で元のピクセルエンコーディングと言語デコード機能をシームレスに統合しています。

画像生成テキスト

Internvl3 8B Hf

InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。

画像生成テキスト

Transformers その他

Internvl3 2B AWQ

InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデル（MLLM）で、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。

Transformers その他

InternVL3-1BはInternVL3シリーズの10億パラメータ規模のマルチモーダル大規模言語モデルで、InternViTビジョンエンコーダーとQwen2.5言語モデルを統合し、優れたマルチモーダル知覚と推論能力を備えています。

Transformers その他

Ovis2-1Bはマルチモーダル大規模言語モデル（MLLM）Ovisシリーズの最新メンバーで、視覚とテキストの埋め込み構造のアライメントに焦点を当て、小型モデルながら高性能、強化された推論能力、動画と複数画像処理、多言語OCR強化などの特徴を備えています。

テキスト生成画像

Transformers 複数言語対応

Video-R1-7BはQwen2.5-VL-7B-Instructを最適化したマルチモーダル大規模言語モデルで、ビデオ推論タスクに特化しており、ビデオコンテンツを理解し関連する質問に答えることができます。

ビデオ生成テキスト

Transformers 英語

Finedeficsはオープンソースのマルチモーダル大規模言語モデル（MLLM）で、オブジェクトの情報的属性記述を組み込むことで、細粒度視覚認識（FGVR）能力を強化しています。

画像生成テキスト

MiniMax-VL-01は強力なマルチモーダル大規模言語モデルで、'ViT-MLP-LLM'フレームワークを採用し、動的解像度処理能力を持ち、多くの視覚言語タスクで優れた性能を発揮します。

画像生成テキスト

Videorefer 7B Stage2.5

VideoRefer-7Bはビデオ大規模言語モデルに基づくマルチモーダルモデルで、時空間物体理解タスクに特化しています。

テキスト生成ビデオ

Transformers 英語

P MoD LLaVA NeXT 7B

p-MoDは漸進的比例減衰法に基づいて構築された混合深度マルチモーダル大規模言語モデルで、画像テキスト生成タスクをサポートします。

画像生成テキスト

Llava UHD V2 Vicuna 7B

LLaVA-UHD v2は、階層的ウィンドウトランスフォーマーを中心に構築された、高度なマルチモーダル大規模言語モデルです。高解像度特徴ピラミッドを通じて、さまざまな視覚粒度を捉えることができます。

マルチモーダル融合

Auroracap 7B VID Xtuner

AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。

ビデオ生成テキスト

Eagleは、視覚を中心とした高解像度マルチモーダル大規模言語モデルのシリーズで、1K以上の入力解像度をサポートし、光学文字認識やドキュメント理解などのタスクで優れた性能を発揮します。

画像生成テキスト

M3D LaMed Llama 2 7B

M3Dはマルチモーダル大規模言語モデルに基づく3D医療画像解析技術で、M3D-Dataデータセット、M3D-LaMedモデル、M3D-Bench評価基準を含みます。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase