I

Internvl3 8B Hf

OpenGVLabによって開発
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。
ダウンロード数 454
リリース時間 : 4/18/2025

モデル概要

InternVL3はOpenGVLabが提供するマルチモーダル大規模言語モデルで、卓越した総合性能を示します。前世代と比較して、より強力なマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの機能を拡張しています。

モデル特徴

マルチモーダル能力
画像、動画、テキスト入力をサポートし、強力なマルチモーダル知覚と推論能力を備えています。
拡張機能
基本的なマルチモーダル能力に加え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの拡張機能をサポートします。
バッチ処理
画像とテキスト入力のバッチ処理をサポートし、推論効率を向上させます。
ネイティブTransformers実装
ネイティブTransformersモデルとして、SDPAやFA2を含む複数のアテンション実装など、コアライブラリ機能をサポートします。

モデル能力

画像キャプション生成
動画コンテンツ理解
マルチモーダル対話
テキスト生成
多言語サポート
バッチ推論

使用事例

コンテンツ理解と生成
画像キャプション
入力画像に基づいて詳細な説明を生成
詳細を含む自然言語説明を生成
動画分析
動画コンテンツを理解し質問に回答
動画中の動作とシーンを正確に識別
クリエイティブコンテンツ生成
詩の創作
画像またはテキストプロンプトに基づいて詩を生成
テーマに沿った創造的なテキストを生成
産業応用
産業画像分析
産業シーンにおける画像を分析
産業シーン中の特定オブジェクトと状態を識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase