モデル選定

視覚言語理解

# 視覚言語理解

Blip Arabic Flickr 8k

BLIPアーキテクチャをファインチューニングしたアラビア語画像キャプション生成モデルで、Flickr8kアラビア語データセットに最適化されています

画像生成テキスト

Transformers 複数言語対応

Skywork VL Reward 7B

Skywork-VL-Reward-7Bは7Bパラメータのマルチモーダル報酬モデルで、Qwen2.5-VL-7B-Instructアーキテクチャを基に、報酬モデルトレーニング用の価値ヘッド構造を追加しています。

マルチモーダル融合

Skywork R1V2 38B

天工-R1V2-38Bは現在最も先進的なオープンソースのマルチモーダル推論モデルで、多くのベンチマークテストで卓越したパフォーマンスを示し、強力な視覚推論とテキスト理解能力を備えています。

画像生成テキスト

Emova Qwen 2 5 3b

EMOVAはエンドツーエンドの全モーダル対応大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情制御可能なテキストと音声応答を生成できます。

マルチモーダル融合

Transformers 複数言語対応

Gemma 3 4b It Qat GGUF

Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを作成したのと同じ研究と技術に基づいています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像英語

VL Rethinker 7B Mlx 4bit

VL-Rethinker-7B 4ビットMLX量子化版はTIGER-Lab/VL-Rethinker-7Bモデルの量子化バージョンで、Appleデバイス向けに最適化され、視覚質問応答タスクをサポートします。

テキスト生成画像英語

Llama 3.2 11B Vision Radiology Mini

これはLlamaアーキテクチャに基づくマルチモーダルモデルで、視覚とテキストの命令をサポートし、4ビット量子化で最適化されています。

画像生成テキスト

Internvl3 78B Pretrained

InternVL3-78BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデルで、卓越した総合性能を発揮します。前世代のInternVL 2.5と比較し、より強力なマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などの新領域に能力を拡張しています。

テキスト生成画像

Transformers その他

VL Rethinker 7B Fp16

このモデルはQwen2.5-VL-7B-Instructを変換したマルチモーダル視覚言語モデルで、視覚質問応答タスクをサポートします。

テキスト生成画像

Transformers 英語

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bitはQwen2.5-VL-7B-Instructをベースにしたマルチモーダルモデルで、視覚QAタスクをサポートし、Appleデバイスで効率的に動作するようMLXフォーマットに変換されています。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 7B Instruct Gptqmodel Int8

Qwen2.5-VL-7B-Instructモデルに基づいてGPTQ-INT8量子化を行った視覚言語モデル

画像生成テキスト

Transformers 複数言語対応

Llama 4 Maverick 17B 128E Instruct 6bit

Meta Llama 4モデルを基に変換された6ビット量子化バージョンで、多言語命令対話をサポートします。

大規模言語モデル

Transformers 複数言語対応

VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instructは72Bパラメータ規模のマルチモーダル大規模モデルで、視覚-言語タスクをサポートし、画像に関連するテキスト内容を理解し生成できます。

テキスト生成画像英語

Qwen Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。

テキスト生成画像英語

Qwen2.5-VLを基に革新的なCurr-ReFT手法でファインチューニングされたマルチモーダル大規模言語モデルで、視覚言語理解と推論能力が大幅に向上しています。

テキスト生成画像

Internvl2 5 HiMTok 8B

HiMTokはInternVL2_5-8B大規模マルチモーダルモデルをファインチューニングした階層型マスクトークン学習フレームワークで、画像セグメンテーションタスクに特化しています。

画像生成テキスト

これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。

テキスト生成画像

Qwen2 VL 7B Captioner Relaxed GGUF

このモデルはQwen2-VL-7B-Captioner-RelaxedをGGUF形式に変換したバージョンで、画像からテキストへのタスクに最適化されており、llama.cppやKoboldcppなどのツールで実行可能です。

画像生成テキスト英語

mmMamba-linearは、中規模な学術計算リソースで二次から線形への蒸留を実現した初の純粋デコーダ型マルチモーダル状態空間モデルで、効率的なマルチモーダル処理能力を備えています。

画像生成テキスト

Qwen2 Vl 7b Rslora Offensive Meme Singapore

シンガポールの文脈における冒犯性絵文字の分類を目的とした視覚言語モデル。Qwen2-VL-7B-Instructをベースに微調整されています。

マルチモーダル融合

Transformers 英語

Mulberry Qwen2vl 7b

桑実モデルは段階的推論に基づくモデルで、集団知識検索によって生成されたMulberry - 260K SFTデータセットで訓練されています。

テキスト生成画像

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeerはDeepSeek-R1モデルを基に開発された視覚言語モデルで、思考連鎖推論能力をサポートし、対話テンプレートを通じて視覚モデルを訓練します。

画像生成テキスト

mehmetkeremturkcan

マジシャンは、自由形式のマルチイメージローカライゼーション能力を備えた初のマルチモーダル大規模言語モデルで、複雑なマルチイメージシーンにおいて高精度なローカライゼーションを実現し、70B規模のモデルを超える性能を発揮します。

テキスト生成画像

Transformers 英語

Open LLaVA NeXT LLaMA3 8B

オープンソースのチャットボットモデルで、オープンソースデータ上でモデル全体を微調整して訓練され、マルチモーダルモデルとチャットボットの研究に使用できます。

テキスト生成画像

Share4oReasoning

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instructはマルチモーダル視覚言語モデルで、画像とテキストの統合理解と生成をサポートします。

テキスト生成画像

Transformers 英語

Minivla Vq Libero90 Prismatic

MiniVLAは軽量な視覚言語モデルで、Prismatic VLMsトレーニングフレームワークと互換性があり、画像テキストからテキストへのマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers 英語

GLM-Edge-V-5Bは50億パラメータのマルチモーダルモデルで、画像とテキスト入力をサポートし、画像理解とテキスト生成タスクを実行できます。

画像生成テキスト

Emu3は北京智源研究院によって開発されたマルチモーダルモデルで、次のトークンを予測するだけで訓練され、画像、テキスト、動画処理をサポートします。

テキスト生成画像

Llama 3 EvoVLM JP V2

Llama-3-EvoVLM-JP-v2 は実験的な汎用日本語視覚言語モデルで、テキストと画像の交互入力をサポートしています。このモデルは進化的モデル融合手法を用いて作成されました。

画像生成テキスト

Transformers 日本語

Cephalo Idefics 2 Vision 10b Alpha

Cephaloはマルチモーダル材料科学に特化した一連の視覚大規模言語モデル（V-LLMs）で、視覚と言語データを統合し、人間と機械のインタラクションやマルチエージェントAIフレームワークにおける高度な理解と相互作用を促進することを目的としています。

画像生成テキスト

Transformers その他

Open Llava Next Llama3 8b

オープンソースのチャットボットモデルで、オープンソースデータ上でモデル全体を微調整して訓練され、マルチモーダルモデルとチャットボットの研究に使用できます。

テキスト生成画像

Denseconnector V1.5 8B

DenseConnectorはオープンソースのチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル指示追従データでトレーニングされています。

画像生成テキスト

Cephalo Idefics 2 Vision 8b Alpha

Cephaloは、マルチモーダル材料科学に特化した一連の視覚大規模言語モデル（V-LLMs）で、視覚と言語データを統合し、人間と機械の相互作用やマルチエージェントAIフレームワークにおける高度な理解と相互作用を促進することを目的としています。

画像生成テキスト

Transformers その他

Llava Jp 1.3b V1.1

LLaVA-JPは日本語をサポートするマルチモーダル視覚言語モデルで、入力画像に関する説明や対話を理解し生成できます。

画像生成テキスト

Transformers 日本語

これはtransformersベースの画像からテキストへの変換モデルで、具体的な機能はさらに情報を追加する必要があります

画像生成テキスト

Llava Next Mistral 7b 4096

LLaVA-v1.6-Mistral-7Bモデルを微調整したマルチモーダルモデルで、画像とテキストの統合理解と生成をサポート

テキスト生成画像

Llava V1.5 13b Dpo Gguf

LLaVA-v1.5-13B-DPOはLLaVAフレームワークに基づく視覚言語モデルで、直接選好最適化(DPO)でトレーニングされ、推論効率向上のためにGGUF量子化フォーマットに変換されています。

画像生成テキスト

LLaVAはオープンソースのマルチモーダルチャットボットで、大規模言語モデルのファインチューニングにより訓練され、画像とテキストのインタラクションをサポートします。

テキスト生成画像

Moe LLaVA StableLM 1.6B 4e

MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現します。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase