I

Internvl3 2B Hf

OpenGVLabによって開発
InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。
ダウンロード数 41.22k
リリース時間 : 4/18/2025

モデル概要

InternVL3-2Bは先進的なマルチモーダル大規模言語モデルで、画像、ビデオ、テキストの交差入力処理をサポートし、強力なマルチモーダル感知と推論能力を備え、さまざまなビジュアル - 言語タスクに適しています。

モデル特徴

マルチモーダル処理能力
画像、ビデオ、テキストの交差入力処理をサポートし、真のマルチモーダル理解を実現します。
バッチ推論サポート
大量の画像とテキスト入力を効率的に処理し、推論効率を向上させます。
先進的なマルチモーダル事前学習
ネイティブなマルチモーダル事前学習により、テキスト性能で純粋な言語モデルを上回ることさえあります。
拡張アプリケーション分野
ツール使用、GUIエージェント、産業用画像分析、3Dビジュアル感知などの拡張アプリケーションをサポートします。

モデル能力

画像説明生成
ビデオ内容理解
マルチモーダル対話
クロスモーダル推論
テキスト生成
多言語処理
バッチマルチ画像処理

使用事例

内容理解と生成
画像説明生成
入力画像に対して詳細な説明を生成します。
画像内の物体、シーン、関係を正確に説明することができます。
ビデオ内容分析
ビデオ内容を理解し、質問に答えます。
ビデオ内の動作やイベントを識別することができます。
クリエイティブアプリケーション
画像に触発された詩の創作
画像内容に基づいて詩を創作します。
画像の雰囲気に合った詩を生成することができます。
教育アプリケーション
ランドマーク識別と説明
画像内の著名なランドマークを識別し、説明します。
複数の著名なランドマークを正確に識別し、説明することができます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase