I

Internvl3 14B Hf

OpenGVLabによって開発
InternVL3-14Bは強力なマルチモーダル大規模言語モデルで、マルチモーダル認知と推論能力に優れ、画像、テキスト、ビデオなどの複数の入力をサポートします。
ダウンロード数 4,260
リリース時間 : 4/18/2025

モデル概要

InternVL3-14Bは機能が強力なマルチモーダル大規模言語モデルで、卓越したマルチモーダル認知と推論能力を備え、画像、テキスト、ビデオなどの複数の入力をサポートし、ツール使用、GUIエージェント、産業用画像分析、3D視覚認知などの複数の分野に適用されます。

モデル特徴

マルチモーダル能力が強い
InternVL 2.5と比較して、InternVL3はより優れたマルチモーダル認知と推論能力を示し、マルチモーダル能力をツール使用、GUIエージェント、産業用画像分析、3D視覚認知などの分野に拡張します。
テキスト性能が優れている
Qwen2.5チャットモデルと比較して、ネイティブマルチモーダル事前学習の恩恵を受けて、InternVL3シリーズは全体的なテキスト性能でより優れた結果を示します。
複数の入力をサポートする
画像、テキスト、ビデオの単一入力、バッチ入力、および交互入力をサポートします。

モデル能力

画像記述
テキスト生成
ビデオ分析
マルチモーダル推論
ツール使用
GUIエージェント
産業用画像分析
3D視覚認知

使用事例

画像分析
画像記述
入力された画像に対して詳細な記述を行う
詳細な画像記述テキストを生成する
テキスト生成
詩生成
プロンプトに基づいて詩を生成する
要求に合った詩のテキストを生成する
ビデオ分析
ビデオ内容理解
ビデオ内容を分析して質問に答える
ビデオ内容に関する質問に正確に答える
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase