J

Japanese Stable Vlm

stabilityaiによって開発
視覚言語指示追従モデルで、入力画像に対する日本語説明を生成し、オプションで入力テキスト(質問など)を処理できます。
ダウンロード数 122
リリース時間 : 11/1/2023

モデル概要

日本語安定視覚言語モデルは、視覚と言語処理能力を統合したモデルで、主に画像説明生成と視覚的質問応答タスクに使用され、特に日本語シーン向けに最適化されています。

モデル特徴

日本語視覚言語理解
日本語に特化して最適化された視覚言語処理能力で、日本語の指示を正確に理解し、日本語説明を生成できます
マルチタスクサポート
画像説明生成、タグ補助説明、視覚的質問応答など、様々な視覚言語タスクをサポートします
2段階トレーニング
MLP投影層を最初にトレーニングし、その後言語モデルと投影層を微調整する2段階トレーニング戦略を採用し、モデル性能を向上させます

モデル能力

画像説明生成
視覚的質問応答
日本語テキスト処理
マルチモーダル理解

使用事例

コンテンツ生成
画像自動タグ付け
画像に対して詳細な日本語説明を生成します
画像内容に合致した自然言語説明を生成します
インテリジェントQA
視覚的質問応答システム
画像内容に関する日本語の質問に回答します
画像に関連した正確な質問応答を提供します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase