モデル選定

視覚言語インタラクション

# 視覚言語インタラクション

Qwen2.5 VL 7B Instruct Q8 0 GGUF

このモデルはQwen2.5-VL-7B-Instructを変換したGGUF形式のモデルで、マルチモーダルタスクをサポートし、画像とテキストのインタラクティブな処理に適しています。

テキスト生成画像英語

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。

テキスト生成画像英語

Qwen2 VL 72B Instruct

Qwen2-VL-72B-Instruct はマルチモーダル視覚言語モデルで、画像とテキストのインタラクションをサポートし、複雑な視覚言語タスクに適しています。

画像生成テキスト

Transformers 英語

Qwen2 VL 7B Visual Rft Lisa IoU Reward

Qwen2-VL-7B-InstructはQwen2アーキテクチャに基づく視覚言語モデルで、画像とテキストのマルチモーダル入力をサポートし、様々な視覚言語タスクに適しています。

画像生成テキスト英語

MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。

画像生成テキスト

Qwen2.5 VL 3B Instruct MLX 8bits

これはQwen2.5-VL-3B-Instructモデルを基にした8ビット量子化バージョンで、MLXフレームワーク向けに最適化されており、画像テキスト生成タスクをサポートします。

画像生成テキスト

Transformers 英語

AURORAは、ビデオとシミュレーションに基づくアクションと推論を中心とした画像編集モデルで、視覚言語タスクに焦点を当てています。

画像生成英語

Chat Vector Llava V1.5 7b Ja

入力画像に対して日本語で対話可能な視覚言語モデルで、Chat Vector手法を用いて複数のモデル重みを統合して作成

画像生成テキスト

Transformers 日本語

Internlm Xcomposer2 Vl 1 8b

InternLM2ベースの視覚-言語大規模モデルで、優れた画像理解と創作能力を備えています

テキスト生成画像

Internlm Xcomposer2 Vl 7b

InternLM-XComposer2はInternLM2を基に開発された視覚-言語大規模モデルで、卓越した画像テキスト理解と創作能力を備えています。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase