I

Internvl3 9B AWQ

Developed by OpenGVLab
InternVL3-9BはInternVL3シリーズのマルチモーダル大規模言語モデルで、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な応用シーンをサポートします。
Downloads 214
Release Time : 4/17/2025

Model Overview

InternVL3-9Bは'ViT-MLP-LLM'アーキテクチャを採用し、InternViTビジョンエンコーダーとInternLM3言語モデルを統合、ネイティブマルチモーダル事前学習手法により強力なマルチモーダル理解と生成能力を実現しています。

Model Features

ネイティブマルチモーダル事前学習
統一されたトレーニングスキームで言語とマルチモーダル表現を同時に学習、個別のキャリブレーションやブリッジモジュールが不要
可変視覚位置エンコーディング(V2PE)
より優れた長文脈理解能力をサポート
混合嗜好最適化(MPO)
正負サンプルの監視により推論性能を向上
マルチモーダル拡張能力
ツール使用、GUI操作、3D視覚知覚など多様な応用をサポート

Model Capabilities

マルチモーダル推論
数学計算
OCR認識
チャート理解
ドキュメント分析
複数画像理解
動画理解
GUI位置特定
空間推論
多言語理解

Use Cases

産業応用
産業画像分析
産業シーンにおける欠陥検出と品質管理に使用
インタラクティブ応用
GUIエージェント
GUI操作とインターフェース理解の自動化
3D応用
3Dシーン理解
3Dシーン情報の理解と分析
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase