I

Internvl3 1B

FriendliAIによって開発
InternVL3-1BはInternVL3シリーズの10億パラメータ規模のマルチモーダル大規模言語モデルで、InternViTビジョンエンコーダーとQwen2.5言語モデルを統合し、優れたマルチモーダル知覚と推論能力を備えています。
ダウンロード数 71
リリース時間 : 4/12/2025

モデル概要

InternVL3-1Bは先進的なマルチモーダル大規模言語モデルで、視覚と言語処理能力を組み合わせ、画像、動画、テキストなど様々なモダリティの入力をサポートし、複雑なマルチモーダル理解と生成タスクに適しています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダルタスク処理能力を強化。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分で視覚トークンを処理し、長文脈理解能力を向上。
混合選好最適化(MPO)
正負サンプルの監視によりモデル応答分布を調整し、推論性能を向上。
動的解像度戦略
画像を448×448ピクセルのブロックに分割し、複数画像と動画データをサポート。

モデル能力

マルチモーダル推論
画像理解
動画理解
テキスト生成
OCR
図表理解
文書理解
GUI位置特定
空間推論

使用事例

産業画像分析
産業欠陥検出
画像分析により工業製品の欠陥を識別。
高精度な欠陥識別で生産効率を向上。
3D視覚知覚
3Dシーン理解
3Dシーン内の物体と空間関係を分析。
複雑な3Dシーンを正確に理解。
ツール使用
自動化ツール操作
自然言語命令でツールを操作。
ツール使用の利便性と効率を向上。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase