H

Heron Chat Blip Ja Stablelm Base 7b V1 Llava 620k

turing-motorsによって開発
入力画像について対話可能な視覚言語モデルで、日本語インタラクションをサポート
ダウンロード数 25
リリース時間 : 2/27/2024

モデル概要

このモデルはBLIP2アーキテクチャを基盤とし、日本語StableLMベースAlpha版言語モデルを統合、画像入力を処理し自然言語対話が可能

モデル特徴

日本語視覚対話
日本語に最適化された視覚質問応答能力
効率的なアーキテクチャ
BLIP2視覚エンコーダーとStableLM言語モデルの統合
包括的なファインチューニング
LLaVA-Instruct-620K-JAデータセットを使用してトレーニング

モデル能力

画像理解
日本語対話
視覚質問応答
画像キャプション生成

使用事例

チャットアプリケーション
画像対話ボット
ユーザーが画像をアップロード後、AIと画像内容について対話
画像内容を理解し関連する回答を生成可能
研究用途
マルチモーダル研究
視覚言語モデル関連研究に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase