I

Internvl3 8B Instruct GGUF

unslothによって開発
InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル(MLLM)で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。
ダウンロード数 2,412
リリース時間 : 5/19/2025

モデル概要

InternVL3-8B-Instruct は InternVL3 シリーズの SFT バージョンで、ネイティブマルチモーダル事前学習と SFT を経ていますが、MPO は実施されていません。このモデルはツール使用、GUI エージェント、産業画像分析、3D 視覚知覚など、さまざまなマルチモーダルタスクをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚の学習を単一の事前学習段階に統合し、モデルのマルチモーダル処理能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用して視覚トークンを処理し、長文脈理解能力を向上させます。
マルチモーダル能力拡張
ツール使用、GUI エージェント、産業画像分析、3D 視覚知覚など、さまざまなタスクをサポートします。
高性能推論
複数のベンチマークテストで卓越したマルチモーダル推論と数学的能力を示しています。

モデル能力

マルチモーダル推論
OCR
チャートとドキュメント理解
複数画像と現実世界理解
視覚的定位
マルチモーダル多言語理解
動画理解
GUI 定位
空間推論

使用事例

産業応用
産業画像分析
産業シーンにおける画像を分析し、欠陥や異常を識別します。
教育
科学チャート理解
学生が科学チャートの情報を理解し分析するのを支援します。
エンターテインメント
動画コンテンツ理解
動画コンテンツを分析し、説明を生成したり関連質問に回答したりします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase