I

Internvl3 1B AWQ

OpenGVLabによって開発
InternVL3-1BはInternVL3シリーズのマルチモーダル大規模言語モデルで、卓越したマルチモーダル知覚と推論能力を備えています。
ダウンロード数 303
リリース時間 : 4/17/2025

モデル概要

InternVL3-1Bは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れた全体的な性能を示し、より優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスク処理能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分で視覚トークンをエンコードし、長文脈理解能力を向上させます。
混合選好最適化(MPO)
正負サンプルの追加監視により、モデルの推論性能を向上させます。

モデル能力

マルチモーダル推論
OCR
チャート理解
ドキュメント理解
複数画像理解
動画理解
GUI位置特定
空間推論

使用事例

産業画像分析
産業欠陥検出
画像分析により工業製品の欠陥を検出します。
高精度な欠陥識別
3D視覚知覚
3Dシーン理解
3Dシーン内の物体と関係を理解し分析します。
3Dシーン理解能力の向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase