I

Internvl3 8B Instruct

OpenGVLabによって開発
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な機能をサポートします。
ダウンロード数 885
リリース時間 : 4/16/2025

モデル概要

InternVL3-8B-Instruct は InternVL3 シリーズの SFT バージョンで、ネイティブマルチモーダル事前学習と教師付き微調整を経ており、画像、動画、テキストなど多様なモダリティの理解と生成を含む強力なマルチモーダル能力を備えています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスク処理能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用して視覚トークンを表現し、長文脈理解能力を向上させます。
混合選好最適化(MPO)
正負サンプルの追加監視を通じて、モデル応答分布を真の分布に合わせ、推論性能を向上させます。
動的解像度戦略
画像を448×448ピクセルのブロックに分割し、複数画像と動画データをサポートします。

モデル能力

マルチモーダル推論
OCR
図表理解
文書理解
複数画像理解
動画理解
GUI位置特定
空間推論
多言語理解

使用事例

産業応用
産業画像分析
産業シーンにおける画像データを分析し、設備状態や欠陥を識別します。
検出精度と効率を向上させます。
教育
科学図表理解
科学文献中の図表とデータを解析します。
学習と研究を支援します。
人間とコンピュータの相互作用
GUIエージェント
自然言語命令でグラフィカルユーザーインターフェースを操作します。
ユーザー体験と操作効率を向上させます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase