T

Trillion LLaVA 7B

Developed by trillionlabs
Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル(VLM)で、Trillion-7B-previewベースモデルを基に開発されました。
Downloads 199
Release Time : 4/20/2025

Model Overview

このモデルは視覚言語モデルであり、画像とテキストの組み合わせタスクを理解・処理でき、特に言語間の視覚推論において優れた性能を発揮します。

Model Features

言語間視覚推論能力
英語の視覚言語命令ペアのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
多言語基盤
モデルの強力な多言語基盤により、言語固有の視覚訓練データなしで効果的に言語間で視覚推論能力を転移できます。
2段階訓練戦略
LLaVAと同じデータセットと2段階訓練戦略を採用し、モデルの性能の安定性と信頼性を確保しています。

Model Capabilities

画像理解
視覚質問応答
多言語視覚推論

Use Cases

視覚質問応答
多言語視覚質問応答
英語と韓国語の視覚質問応答タスクで正確な回答を提供します。
MMBENCH、SEED-I、MMStar、K-DTCBなどのベンチマークテストで優れた成績を収めています。
言語間視覚推論
韓国語視覚推論
英語データのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
MMBENCH韓国語テストで0.61点を獲得し、他の比較モデルを上回りました。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase