BakLLaVA-1オープンソース多モーダルモデル - Llama 2 13Bを超える性能で、幅広い用途に利用可能

Bakllava 1

SkunkworksAIによって開発

BakLLaVA-1はMistral 7Bモデルをベースに、LLaVA 1.5アーキテクチャで強化されたマルチモーダルモデルで、複数のベンチマークテストにおいてLlama 2 13Bの性能を上回っています。

ダウンロード数 152

リリース時間 : 10/12/2023

モデル概要

BakLLaVA-1はオープンソースのマルチモーダルモデルで、Mistral 7Bの言語能力とLLaVA 1.5の視覚理解能力を組み合わせ、画像テキスト理解と生成タスクに適しています。

強力なマルチモーダル能力

Mistral 7Bの言語モデルとLLaVA 1.5の視覚理解アーキテクチャを組み合わせ、優れた画像テキスト理解と生成能力を実現しました。

Llama 2 13Bを超える性能

複数のベンチマークテストでLlama 2 13Bモデルよりも優れた性能を示しています。

オープンソース利用可能

モデルは完全にオープンソースで、Apache 2.0ライセンスの下で研究開発に利用可能です。

画像テキスト理解

視覚的質問応答

マルチモーダル指示追従

画像キャプション生成

学術研究

視覚的質問応答システム

画像内容に関する質問に答えるシステム構築に使用

学術VQAタスクで良好な性能を発揮

コンテンツ生成

自動画像説明

画像に対して詳細なテキスト説明を生成

正確で豊富な画像説明を生成可能

BakLLaVA 1は、LLaVA 1.5アーキテクチャを用いて拡張されたMistral 7Bベースのモデルです。この最初のバージョンでは、いくつかのベンチマークにおいて、Mistral 7BベースがLlama 2 13Bを上回る性能を示しています。

当社のリポジトリでBakLLaVA-1を実行することができます。現在、微調整と推論をより簡単に行えるように更新作業を進めています。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA 1は、Mistral 7BベースにLLaVA 1.5アーキテクチャを追加したモデルで、いくつかのベンチマークでLlama 2 13Bを上回る性能を発揮します。
BakLLaVA 2は、より大規模な（商用可能な）データセットと新しいアーキテクチャを用いて開発中で、BakLLaVA-1の制限を解消します。