Trillion LLaVA 7B
T
Trillion LLaVA 7B
Developed by trillionlabs
Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル(VLM)で、Trillion-7B-previewベースモデルを基に開発されました。
テキスト生成画像
Transformers Supports Multiple LanguagesOpen Source License:Apache-2.0#多言語視覚質問応答#ゼロショット言語間転移#英語・韓国語視覚推論

Downloads 199
Release Time : 4/20/2025
Model Overview
このモデルは視覚言語モデルであり、画像とテキストの組み合わせタスクを理解・処理でき、特に言語間の視覚推論において優れた性能を発揮します。
Model Features
言語間視覚推論能力
英語の視覚言語命令ペアのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
多言語基盤
モデルの強力な多言語基盤により、言語固有の視覚訓練データなしで効果的に言語間で視覚推論能力を転移できます。
2段階訓練戦略
LLaVAと同じデータセットと2段階訓練戦略を採用し、モデルの性能の安定性と信頼性を確保しています。
Model Capabilities
画像理解
視覚質問応答
多言語視覚推論
Use Cases
視覚質問応答
多言語視覚質問応答
英語と韓国語の視覚質問応答タスクで正確な回答を提供します。
MMBENCH、SEED-I、MMStar、K-DTCBなどのベンチマークテストで優れた成績を収めています。
言語間視覚推論
韓国語視覚推論
英語データのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
MMBENCH韓国語テストで0.61点を獲得し、他の比較モデルを上回りました。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98