I

Internvl 14B 224px

OpenGVLabによって開発
InternVL-14B-224px は14Bパラメータの視覚言語基盤モデルで、様々な視覚言語タスクをサポートします。
ダウンロード数 521
リリース時間 : 12/22/2023

モデル概要

このモデルは強力な視覚言語基盤モデルで、ゼロショット画像/動画分類、画像テキスト/動画検索、画像キャプション生成など様々なタスクをサポートします。

モデル特徴

マルチタスクサポート
ゼロショット画像/動画分類、画像テキスト/動画検索、画像キャプション生成など様々な視覚言語タスクをサポートします。
多言語サポート
英語、中国語、日本語など様々な言語のテキスト入力を処理できます。
高性能
複数のベンチマークテストで優れた性能を発揮し、強力なゼロショット性能を持っています。

モデル能力

ゼロショット画像分類
ゼロショット動画分類
画像テキスト検索
動画検索
画像キャプション生成

使用事例

コンテンツ理解
画像分類
微調整なしで画像を分類可能
複数のデータセットで優れた性能を発揮
画像キャプション生成
入力画像に対して自然言語の説明を生成
正確で流暢な説明を生成
情報検索
クロスモーダル検索
テキストに基づいて関連する画像や動画を検索
高い検索精度
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase