T

Trillion LLaVA 7B

trillionlabsによって開発
Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル(VLM)で、Trillion-7B-previewベースモデルを基に開発されました。
ダウンロード数 199
リリース時間 : 4/20/2025

モデル概要

このモデルは視覚言語モデルであり、画像とテキストの組み合わせタスクを理解・処理でき、特に言語間の視覚推論において優れた性能を発揮します。

モデル特徴

言語間視覚推論能力
英語の視覚言語命令ペアのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
多言語基盤
モデルの強力な多言語基盤により、言語固有の視覚訓練データなしで効果的に言語間で視覚推論能力を転移できます。
2段階訓練戦略
LLaVAと同じデータセットと2段階訓練戦略を採用し、モデルの性能の安定性と信頼性を確保しています。

モデル能力

画像理解
視覚質問応答
多言語視覚推論

使用事例

視覚質問応答
多言語視覚質問応答
英語と韓国語の視覚質問応答タスクで正確な回答を提供します。
MMBENCH、SEED-I、MMStar、K-DTCBなどのベンチマークテストで優れた成績を収めています。
言語間視覚推論
韓国語視覚推論
英語データのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
MMBENCH韓国語テストで0.61点を獲得し、他の比較モデルを上回りました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase