I

Internvl3 2B Instruct

OpenGVLabによって開発
InternVL3-2B-InstructはInternVL3-2Bを基にした教師付き微調整バージョンで、ネイティブマルチモーダル事前学習とSFT処理を経ており、強力なマルチモーダル知覚と推論能力を備えています。
ダウンロード数 1,345
リリース時間 : 4/16/2025

モデル概要

InternVL3-2B-Instructは先進的なマルチモーダル大規模言語モデルで、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様なタスクをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダル処理能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用し、長文脈理解能力を向上させます。
動的解像度戦略
画像を448×448ピクセルのブロックに分割し、複数画像や動画データをサポートします。
教師付き微調整
高品質で多様なトレーニングデータを使用し、ツール使用、3Dシーン理解など多様なタスクを拡張します。

モデル能力

マルチモーダル推論
OCR認識
図表理解
文書理解
複数画像理解
動画理解
GUI位置特定
空間推論
多言語理解

使用事例

産業画像分析
欠陥検出
産業画像中の欠陥や異常を識別します。
検出精度と効率を向上させます。
3D視覚知覚
3Dシーン理解
3Dシーン中の物体と関係を分析・理解します。
3Dシーンの意味理解能力を強化します。
GUI操作
自動テスト
GUI要素を自動識別・操作します。
GUIテストの自動化レベルを向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase