モデル選定

マルチモーダルQA

# マルチモーダルQA

Llava 1.5 7b Hf Q4 K M GGUF

このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。

画像生成テキスト英語

VL Rethinker 7B 6bit

これはQwen2.5-VL-7B-Instructをベースにしたマルチモーダルモデルで、視覚QAタスクをサポートし、Appleチップ上で効率的に動作するようMLXフォーマットに変換されています。

テキスト生成画像

Transformers 英語

VL Rethinker 7B 8bit

VL-Rethinker-7B-8bit は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダルモデルで、視覚質問応答タスクをサポートします。

テキスト生成画像

Transformers 英語

VL Rethinker 7B Fp16

このモデルはQwen2.5-VL-7B-Instructを変換したマルチモーダル視覚言語モデルで、視覚質問応答タスクをサポートします。

テキスト生成画像

Transformers 英語

VL Rethinker 72B 8bit

このモデルはQwen2.5-VL-7B-Instructから変換されたマルチモーダル視覚言語モデルで、8ビット量子化をサポートし、視覚的質問応答タスクに適しています。

テキスト生成画像

Transformers 英語

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bitはQwen2.5-VL-7B-Instructをベースにしたマルチモーダルモデルで、視覚QAタスクをサポートし、Appleデバイスで効率的に動作するようMLXフォーマットに変換されています。

テキスト生成画像

Transformers 英語

Gemma 3 4b It Abliterated Q4 0 GGUF

このモデルはmlabonne/gemma-3-4b-it-abliteratedのGGUF形式変換バージョンで、x-ray_alphaの視覚コンポーネントを統合し、よりスムーズなマルチモーダル体験を提供します。

画像生成テキスト

Erax VL 7B V2.0 Preview I1 GGUF

これはEraX-VL-7B-V2.0-Previewモデルを重み/重要度行列量子化した結果で、様々なニーズに対応する複数の量子化バージョンを提供します

画像生成テキスト複数言語対応

マイクロソフトPhi-1.5アーキテクチャを基にしたビジュアルランゲージモデル、CLIPと統合して画像処理能力を実現

画像生成テキスト

Transformers 複数言語対応

Idefics3 8B Llama3

Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。

画像生成テキスト

Transformers 英語

Idefics2 8b Chatty

Idefics2はオープンなマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。このモデルは画像に関する質問に答えたり、視覚的コンテンツを説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして使用したりできます。

画像生成テキスト

Transformers 英語

Idefics2はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において大幅な改善が見られます。

画像生成テキスト

Transformers 英語

Heron Chat Git Ja Stablelm Base 7b V1

入力画像について対話可能なビジュアル言語モデルで、日本語インタラクションをサポート

画像生成テキスト

Transformers 日本語

Llava-Phi2はPhi2をベースにしたマルチモーダル実装で、視覚と言語処理能力を組み合わせ、画像テキストからテキストへのタスクに適しています。

画像生成テキスト

Transformers 英語

IDEFICSはオープンソースのマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成できます。Deepmind Flamingoモデルのオープンソース再現版です。

画像生成テキスト

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase