Trillion LLaVA 7B
T
Trillion LLaVA 7B
trillionlabsによって開発
Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル(VLM)で、Trillion-7B-previewベースモデルを基に開発されました。
ダウンロード数 199
リリース時間 : 4/20/2025
モデル概要
このモデルは視覚言語モデルであり、画像とテキストの組み合わせタスクを理解・処理でき、特に言語間の視覚推論において優れた性能を発揮します。
モデル特徴
言語間視覚推論能力
英語の視覚言語命令ペアのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
多言語基盤
モデルの強力な多言語基盤により、言語固有の視覚訓練データなしで効果的に言語間で視覚推論能力を転移できます。
2段階訓練戦略
LLaVAと同じデータセットと2段階訓練戦略を採用し、モデルの性能の安定性と信頼性を確保しています。
モデル能力
画像理解
視覚質問応答
多言語視覚推論
使用事例
視覚質問応答
多言語視覚質問応答
英語と韓国語の視覚質問応答タスクで正確な回答を提供します。
MMBENCH、SEED-I、MMStar、K-DTCBなどのベンチマークテストで優れた成績を収めています。
言語間視覚推論
韓国語視覚推論
英語データのみで訓練されているにもかかわらず、韓国語の視覚推論タスクで優れた性能を示します。
MMBENCH韓国語テストで0.61点を獲得し、他の比較モデルを上回りました。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98