I

Internvl3 2B Hf

Developed by OpenGVLab
InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。
Downloads 41.22k
Release Time : 4/18/2025

Model Overview

InternVL3-2Bは先進的なマルチモーダル大規模言語モデルで、画像、ビデオ、テキストの交差入力処理をサポートし、強力なマルチモーダル感知と推論能力を備え、さまざまなビジュアル - 言語タスクに適しています。

Model Features

マルチモーダル処理能力
画像、ビデオ、テキストの交差入力処理をサポートし、真のマルチモーダル理解を実現します。
バッチ推論サポート
大量の画像とテキスト入力を効率的に処理し、推論効率を向上させます。
先進的なマルチモーダル事前学習
ネイティブなマルチモーダル事前学習により、テキスト性能で純粋な言語モデルを上回ることさえあります。
拡張アプリケーション分野
ツール使用、GUIエージェント、産業用画像分析、3Dビジュアル感知などの拡張アプリケーションをサポートします。

Model Capabilities

画像説明生成
ビデオ内容理解
マルチモーダル対話
クロスモーダル推論
テキスト生成
多言語処理
バッチマルチ画像処理

Use Cases

内容理解と生成
画像説明生成
入力画像に対して詳細な説明を生成します。
画像内の物体、シーン、関係を正確に説明することができます。
ビデオ内容分析
ビデオ内容を理解し、質問に答えます。
ビデオ内の動作やイベントを識別することができます。
クリエイティブアプリケーション
画像に触発された詩の創作
画像内容に基づいて詩を創作します。
画像の雰囲気に合った詩を生成することができます。
教育アプリケーション
ランドマーク識別と説明
画像内の著名なランドマークを識別し、説明します。
複数の著名なランドマークを正確に識別し、説明することができます。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase