I

Internvl3 1B Pretrained

OpenGVLabによって開発
InternVL3-1BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、ネイティブマルチモーダル事前学習を完了していますが、事後学習は行われていません。
ダウンロード数 18
リリース時間 : 4/17/2025

モデル概要

InternVL3-1BはInternViTとQwen2.5アーキテクチャに基づくマルチモーダル大規模言語モデルで、画像とテキストの統合的理解と生成タスクをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
統一されたトレーニングスキームで言語とマルチモーダル表現を同時に学習し、視覚言語タスク処理能力を強化
可変視覚位置エンコーディング(V2PE)
柔軟な位置増分処理で視覚トークンを扱い、長文脈理解能力を向上
動的解像度処理
448×448ピクセルのタイル分割をサポートし、異なるサイズの入力に対応

モデル能力

画像理解
テキスト生成
マルチモーダル推論
多言語サポート
複数画像処理
動画理解

使用事例

視覚的質問応答
画像キャプション生成
入力画像に基づいて詳細な説明を生成
マルチモーダル対話
画像ベースの対話システム
画像に基づくマルチターン対話インタラクションをサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase