I

Internvl3 2B Pretrained

OpenGVLabによって開発
InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、強力な視覚言語理解と推論能力を備え、様々なマルチモーダルタスクをサポートします。
ダウンロード数 61
リリース時間 : 4/17/2025

モデル概要

InternVL3-2BはQwen2.5-1.5BとInternViT-300M-448px-V2_5を統合したマルチモーダル大規模言語モデルで、ネイティブマルチモーダル事前学習を完了し、優れた総合性能を発揮します。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を単一の事前学習段階に統合し、マルチモーダル表現能力を強化
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用し、長文脈理解能力を向上
混合選好最適化(MPO)
正負サンプルの監視によりモデル応答分布を調整し、推論性能を向上
動的解像度処理
448×448ピクセルのタイル分割をサポートし、様々なサイズの入力に対応

モデル能力

マルチモーダル推論
画像説明生成
文書理解
複数画像分析
動画理解
GUI位置特定
空間推論
多言語理解

使用事例

視覚コンテンツ分析
画像説明生成
入力画像の詳細な説明を生成
高品質な自然言語説明
複数画像比較
複数画像の類似点と相違点を分析
正確な比較分析結果
産業応用
産業画像分析
産業シーンにおける画像データを分析
正確な欠陥検出と分類
インタラクティブアプリケーション
GUIエージェント
グラフィカルユーザーインターフェースを理解し操作
正確なインターフェース要素認識と操作
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase