I

Internvl3 1B Instruct

OpenGVLabによって開発
InternVL3-1B-InstructはInternVL3シリーズの教師付き微調整バージョンで、ネイティブマルチモーダル事前学習に基づき、優れたマルチモーダル知覚と推論能力を備えています。
ダウンロード数 705
リリース時間 : 4/16/2025

モデル概要

InternVL3-1B-Instructは先進的なマルチモーダル大規模言語モデルで、画像、テキスト、動画など様々なモダリティの統合理解と推論をサポートし、複雑なマルチモーダルタスクに適しています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を単一の事前学習段階に統合し、マルチモーダル表現能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分で視覚トークンを表現し、長文脈理解能力を向上させます。
動的解像度戦略
画像を448×448ピクセルのタイルに分割し、複数画像や動画データをサポートします。
混合選好最適化(MPO)
正負サンプルの追加監視により、モデルの推論性能を向上させます。

モデル能力

マルチモーダル推論
画像理解
テキスト生成
動画理解
OCR
図表理解
文書理解
GUI位置特定
空間推論

使用事例

マルチモーダル推論
複雑な問題解答
画像とテキスト情報を組み合わせて複雑な問題の推論と解答を行います。
複数のベンチマークテストで優れた性能を発揮しました。
文書理解
文書内容抽出
スキャン文書や画像からテキストと構造化情報を抽出します。
高品質なOCRと文書分析をサポートします。
GUI操作
インターフェース自動化
グラフィカルユーザーインターフェース(GUI)を理解し操作します。
自動テストや支援ツール開発に利用可能です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase