I

Internvl3 78B Hf

OpenGVLabによって開発
InternVL3 は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、ビデオ、テキスト入力をサポートします。
ダウンロード数 40
リリース時間 : 4/18/2025

モデル概要

InternVL3 は OpenGVLab が提供するマルチモーダル大規模言語モデルで、卓越した総合性能を示します。このモデルは画像、ビデオ、テキスト入力をサポートし、強力なマルチモーダル知覚と推論能力を備えており、さまざまな視覚-言語タスクに適用できます。

モデル特徴

マルチモーダル知覚
画像、ビデオ、テキスト入力をサポートし、強力なマルチモーダル知覚能力を備えています。
効率的な推論
バッチ推論をサポートし、交互に入力された画像、ビデオ、テキストを処理できます。
幅広い応用シーン
ツール使用、GUI エージェント、産業画像分析、3D 視覚知覚など、さまざまなシーンに適用できます。
優れた性能
総合的なテキスト性能において Qwen2.5 シリーズを上回ります。

モデル能力

画像記述
ビデオ理解
テキスト生成
マルチモーダル推論
バッチ処理

使用事例

画像理解
画像記述
入力された画像を詳細に記述します。
正確で詳細な画像記述テキストを生成します。
ランドマーク認識
画像中の有名なランドマークを識別します。
ランドマークの特徴を正確に識別し記述します。
ビデオ理解
アクション認識
ビデオ中の動作や行動を識別します。
ビデオ中のアクションタイプを正確に記述します。
クリエイティブ生成
俳句創作
画像やテキストプロンプトに基づいて俳句を作成します。
詩的な俳句テキストを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase