I

Internvl3 14B Instruct GGUF

unslothによって開発
InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
ダウンロード数 982
リリース時間 : 5/19/2025

モデル概要

InternVL3-14B-InstructはQwen2.5-14B言語モデルをファインチューニングしたマルチモーダル大規模言語モデルで、強力な画像理解とテキスト生成能力を持ち、複雑なマルチモーダルタスクに適しています。

モデル特徴

ネイティブマルチモーダル事前学習
言語と視覚学習を1つの事前学習段階に統合し、マルチモーダル表現能力を強化します。
可変視覚位置エンコーディング(V2PE)
より小さく柔軟な位置増分を使用して視覚トークンを処理し、長文脈理解能力を向上させます。
混合選好最適化(MPO)
正負サンプルの監視を通じてモデル応答分布を調整し、推論性能を向上させます。
動的解像度サポート
複数画像や動画データ入力をサポートし、異なる解像度の視覚タスクに対応します。

モデル能力

画像理解
テキスト生成
マルチモーダル推論
ツール使用
GUIエージェント
3D視覚知覚
動画理解
OCRと文書分析

使用事例

産業応用
産業画像分析
産業シーンにおける画像データの検出と分析に使用されます。
検出精度と効率を向上させます。
教育
マルチモーダル教育アシスタント
画像とテキストを組み合わせて教育コンテンツを生成します。
より直感的な学習体験を提供します。
クリエイティブ
クリエイティブライティング
画像に基づいて詩や物語を生成します。
創造的なインスピレーションを刺激します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase