Trillion - LLaVA - 7Bオープンソースビジュアル言語モデル

ホーム

Trillion LLaVA 7B

trillionlabsによって開発

Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル（VLM）で、Trillion-7B-previewベースモデルを基に開発されました。

テキスト生成画像

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語視覚質問応答 #ゼロショット言語間転移 #英語・韓国語視覚推論

ダウンロード数 199

リリース時間 : 4/20/2025

モデル概要

このモデルは視覚言語モデルであり、画像とテキストの組み合わせタスクを理解・処理でき、特に言語間の視覚推論において優れた性能を発揮します。

モデル特徴

言語間視覚推論能力

英語の視覚言語命令ペアのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。

多言語基盤

モデルの強力な多言語基盤により、言語固有の視覚訓練データなしで効果的に言語間で視覚推論能力を転移できます。

2段階訓練戦略

LLaVAと同じデータセットと2段階訓練戦略を採用し、モデルの性能の安定性と信頼性を確保しています。

モデル能力

画像理解

視覚質問応答

多言語視覚推論

使用事例

視覚質問応答

多言語視覚質問応答

英語と韓国語の視覚質問応答タスクで正確な回答を提供します。

MMBENCH、SEED-I、MMStar、K-DTCBなどのベンチマークテストで優れた成績を収めています。

言語間視覚推論

韓国語視覚推論

英語データのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。

MMBENCH韓国語テストで0.61点を獲得し、他の比較モデルを上回りました。

🚀 Trillion-LLaVA-7B

画像を理解できるビジョン言語モデル（VLM）です。多言語の視覚推論タスクで強力な性能を発揮します。

🚀 クイックスタート

Trillion-LLaVA-7Bは、画像を理解できるビジョン言語モデル（VLM）です。制御された条件下でのビジョンタスクにおける多言語の移行をよりよく観察するために、LLaVAと同じデータセット、二段階トレーニング戦略、モデルアーキテクチャを採用しています。Trillion-7B-preview-visionは英語のビジョン言語命令ペアのみでトレーニングされましたが、韓国語の視覚推論タスクでも強力な性能を発揮することができます。この結果は、当社のモデルの堅牢な多言語基盤が、言語固有の視覚トレーニングデータを必要とせずに、言語間で視覚推論能力を効果的に移行できることを示しています。

✨ 主な機能

画像を理解できるビジョン言語モデルです。
英語のビジョン言語命令ペアのみでトレーニングされていますが、韓国語の視覚推論タスクでも強力な性能を発揮します。
多言語基盤が堅牢で、言語固有の視覚トレーニングデータを必要とせずに、言語間で視覚推論能力を効果的に移行できます。

📚 ドキュメント

様々なビジョン言語モデルの性能比較（英語、韓国語）

モデル	MMBENCH 英語	MMBENCH 韓国語	SEED-I 英語	SEED-I 韓国語	MMStar 英語	MMStar 韓国語	K-DTCB
Llava-1.5-7b	0.64	0.43	0.66	0.52	0.34	0.33	0.30
Llava-1.6-mistral-7b	0.68	0.49	0.72	0.61	0.36	0.33	0.30
Trillion-LLaVA-7B	0.66	0.61	0.68	0.66	0.37	0.37	0.33

制限事項

多言語の視覚命令チューニングデータでのトレーニングが不足しています：モデルは英語のビジョン言語ペアのみでトレーニングされているため、他の言語ペアでの改善の余地があります。
モデルはTrillion-7B-previewの制限事項を引き継いでいます。ビジョン言語理解データ以外の追加トレーニングは行われていないためです。