モデル選定

画像テキスト連携推論

# 画像テキスト連携推論

Llama 4 Scout 17B 16E Linearized Bnb Nf4 Bf16

ラマ4スカウトはMetaが発表した170億パラメータの混合エキスパートモデル(MoE)で、多言語テキストと画像理解をサポートし、PEFT/LoRA互換性を考慮した線形化エキスパートモジュール設計を採用しています。

マルチモーダル融合

Transformers 複数言語対応

Llama 4 Scout 17B 16E Unsloth Bnb 8bit

Llama 4 ScoutはMetaが開発したマルチモーダル大規模言語モデルで、混合専門家アーキテクチャを採用し、テキストと画像理解をサポート、パラメータ規模は170億（活性化）/1090億（総計）。

テキスト生成画像

Transformers 複数言語対応

Llama 4 Scout 17B 16E Instruct

Llama 4 ScoutはMetaが開発したマルチモーダルAIモデルで、混合専門家アーキテクチャを採用し、12言語のテキストと画像インタラクションをサポート、17Bの活性化パラメータと109Bの総パラメータを有します。

マルチモーダル融合

Transformers 複数言語対応

Turkish LLaVA V0.1

マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚（画像）とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。

画像生成テキスト

Safetensors その他

AA Chameleon 7b Base

テキストと画像の入出力を交互にサポートするマルチモーダルモデルで、カメレオン7Bモデルをベースにアライメント・オブ・エブリシングフレームワークで画像生成能力を強化

テキスト生成画像

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase