モデル選定

マルチモーダル命令微調整

# マルチモーダル命令微調整

Qwen2.5 Vl Vqa Vibook

Qwen2.5アーキテクチャに基づくビジュアルQAモデルで、ベトナム語シナリオに特化し、画像関連の質問に対する解答をサポートします。

テキスト生成画像その他

R1-VL-2Bは、段階的グループ相対戦略最適化（StepGRPO）によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。

画像生成テキスト

Phi 4 Multimodal Instruct Ko Asr

microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。

テキスト生成オーディオ

Transformers 韓国語

Smolvlm2 2.2B Instruct 4bit

SmolVLM2-2.2B-Instruct-4bit はMLXフォーマット変換に基づく視覚言語モデルで、動画テキストからテキストへのタスクに特化しています。

画像生成テキスト

Transformers 英語

Kowen Vol 1 Base 7B

Qwen2-VL-7B-Instructを基にした韓国語視覚言語モデルで、画像からテキストタスクをサポート

画像生成テキスト

Transformers 韓国語

Pixtral 12B Captioner Relaxed

Pixtral-12B-2409を微調整したマルチモーダル大規模言語モデルで、豊富な画像説明の生成に特化

画像生成テキスト

Transformers 英語

Llama 3.2 11B Vision Instruct Abliterated 8 Bit

これはLlama-3.2-11B-Vision-Instructに基づくマルチモーダルモデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。

画像生成テキスト

Transformers 複数言語対応

Qwen2 VL 7B SafeRLHF

Qwen2-VL-7B-Instructは、SafeRLHFデータセットで微調整されたマルチモーダル大規模言語モデルで、視覚質問応答タスクに焦点を当て、安全性を重視しています。

テキスト生成画像

Safetensors 英語

ChartGemmaはPaliGemmaを基に構築されたグラフ理解と推論モデルで、視覚的指令微調整を通じて直接グラフ画像を処理し、視覚的トレンドと基盤情報を捕捉します。

画像生成テキスト

Transformers 英語

ViP-LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを画像と地域レベルの命令データで微調整してトレーニングされています。

テキスト生成画像

Llava Med 7b Delta

LLaVA-Medは視覚命令微調整によって構築されたバイオメディカル分野のマルチモーダルモデルで、バイオメディカル画像とテキストを処理する能力を備えています。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase