# 画像テキスト連携推論

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16
その他
ラマ4スカウトはMetaが発表した170億パラメータの混合エキスパートモデル(MoE)で、多言語テキストと画像理解をサポートし、PEFT/LoRA互換性を考慮した線形化エキスパートモジュール設計を採用しています。
マルチモーダル融合 Transformers 複数言語対応
L
axolotl-quants
6,861
3
Llama 4 Scout 17B 16E Unsloth Bnb 8bit
その他
Llama 4 ScoutはMetaが開発したマルチモーダル大規模言語モデルで、混合専門家アーキテクチャを採用し、テキストと画像理解をサポート、パラメータ規模は170億(活性化)/1090億(総計)。
テキスト生成画像 Transformers 複数言語対応
L
unsloth
855
2
Llama 4 Scout 17B 16E Instruct
その他
Llama 4 ScoutはMetaが開発したマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語のテキストと画像インタラクションをサポート、17Bの活性化パラメータと109Bの総パラメータを有します。
マルチモーダル融合 Transformers 複数言語対応
L
meta-llama
817.62k
844
Turkish LLaVA V0.1
MIT
マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚(画像)とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。
画像生成テキスト Safetensors その他
T
ytu-ce-cosmos
86
10
AA Chameleon 7b Base
テキストと画像の入出力を交互にサポートするマルチモーダルモデルで、カメレオン7Bモデルをベースにアライメント・オブ・エブリシングフレームワークで画像生成能力を強化
テキスト生成画像 Transformers 英語
A
PKU-Alignment
105
8
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase