L

Llm Jp 3 Vila 14b

llm-jpによって開発
国立情報学研究所によって開発された大規模視覚言語モデルで、日本語と英語をサポートし、強力な画像理解とテキスト生成能力を備えています。
ダウンロード数 106
リリース時間 : 10/26/2024

モデル概要

これは視覚エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像内容を理解し、関連するテキスト記述を生成したり質問に答えたりすることができます。

モデル特徴

多言語サポート
日本語と英語の視覚言語理解と生成を同時にサポート
3段階トレーニング
段階的なトレーニング戦略を採用し、まず投影層を調整し、次に投影層とLLMを共同でトレーニングし、最後に微調整を行います
高性能視覚エンコーダー
siglip-so400m-patch14-384を視覚エンコーダーとして使用し、強力な画像理解能力を提供します
評価リーダー
複数の日本語視覚言語ベンチマークテストで同類のモデルよりも優れたパフォーマンスを発揮します

モデル能力

画像内容理解
画像記述生成
視覚質問応答
マルチモーダル対話

使用事例

内容理解と生成
画像記述
画像に対して詳細な文章記述を生成します
Heronベンチマークテストで57.2%のLLMスコアを獲得
視覚質問応答
画像内容に関する自然言語の質問に答えます
JA-VG-VQA500テストで3.62/5.0のLLMスコアを獲得
マルチモーダルアプリケーション
画像テキスト対話
画像内容に基づいて自然言語対話を行います
JA-VLM野外ベンチマークテストで3.69/5.0のLLMスコアを獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase