I

Internvl3 38B Instruct

OpenGVLabによって開発
InternVL3-38B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
ダウンロード数 468
リリース時間 : 4/16/2025

モデル概要

InternVL3-38B-Instruct は InternVL3 シリーズの SFT バージョンで、ネイティブマルチモーダル事前学習と教師付き微調整を経ており、強力なマルチモーダル理解と生成能力を備えています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスクの処理能力を強化しました。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用して視覚トークンを処理し、長文脈理解能力を向上させました。
混合選好最適化(MPO)
正負サンプルの追加監視を通じて、モデル応答分布をグラウンドトゥルース分布に整合させ、推論性能を向上させました。
動的解像度戦略
画像を448×448ピクセルのブロックに分割し、複数画像と動画データの処理をサポートします。

モデル能力

マルチモーダル推論
OCR
図表理解
文書理解
複数画像理解
動画理解
GUI位置特定
空間推論
ツール使用
3D視覚知覚

使用事例

産業画像分析
欠陥検出
産業画像中の欠陥や異常を識別します。
高精度で欠陥を識別し、生産効率を向上させます。
文書処理
文書理解
複雑な文書内容を解析・理解します。
効率的にキー情報を抽出し、自動文書処理をサポートします。
動画分析
動画内容理解
動画内容を分析し記述を生成します。
動画シーンと動作を正確に理解します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase