I

Internvl3 8B AWQ

OpenGVLabによって開発
InternVL3-8BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、強力なマルチモーダル知覚と推論能力を備え、ツール呼び出し、GUIエージェント、産業画像分析、3D視覚知覚などの新領域をサポートします。
ダウンロード数 1,441
リリース時間 : 4/17/2025

モデル概要

InternViT-300M-448px-V2_5視覚コンポーネントとQwen2.5-7B言語コンポーネントに基づくマルチモーダル大規模モデルで、ネイティブマルチモーダル事前学習技術により優れた性能を実現しています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を単一の事前学習段階に統合し、追加のアライメントモジュールなしで視覚言語タスク処理能力を強化
可変視覚位置エンコーディング(V2PE)
視覚トークンを細かく柔軟に位置増分処理することで、長文脈理解能力を向上
混合選好最適化(MPO)
正負サンプルの監視によりモデル応答分布を実際の分布に合わせ、推論能力を向上

モデル能力

マルチモーダル推論
数学計算
OCR認識
図表理解
ドキュメント解析
複数画像理解
動画理解
GUI位置特定
空間推論
多言語理解

使用事例

産業応用
産業画像分析
生産ライン上の製品欠陥や品質問題を分析
様々な産業欠陥を高精度で識別
インテリジェントインタラクション
GUIエージェント
グラフィカルユーザーインターフェースを理解し操作
自動化GUI操作を実現
教育研究
科学図表理解
研究論文の複雑な図表を解析
図表中のキー情報を正確に抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase