モデル選定

マルチモーダルインタラクション

# マルチモーダルインタラクション

Moondream 2b 2025 04 14 4bit

Moondreamは軽量級のビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。2025年4月14日にリリースされた4ビット量子化版は、高い精度を維持しながらメモリ使用量を大幅に削減しました。

画像生成テキスト

AgentCPM-GUIはRFT強化推論能力を備えたデバイスサイドのグラフィカルインターフェースエージェントで、中国語と英語のアプリを操作可能、80億パラメータのMiniCPM-Vを基に構築されています。

画像生成テキスト

Safetensors 複数言語対応

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。

画像生成テキスト

Transformers 複数言語対応

Google.gemma 3 12b It Qat Int4 Unquantized GGUF

これは量子化技術を通じて知識の広範な共有を実現するための、量子化バージョンのGemmaモデルです。

大規模言語モデル

Llama 4 Scout 17B 16E Instruct INT4

Llama 4シリーズはMetaが開発したネイティブマルチモーダルAIモデルで、ハイブリッドエキスパートアーキテクチャを採用し、テキストと画像のインタラクションをサポートし、様々な言語とビジュアルタスクで卓越した性能を発揮します。

マルチモーダル融合

Transformers 複数言語対応

Llama 4 Scout 17B 16E Instruct FP8

Llama 4シリーズはMetaが開発したネイティブマルチモーダルAIモデルで、テキストと画像のインタラクションをサポートし、ハイブリッドエキスパートアーキテクチャを採用しており、テキストと画像の理解において卓越した性能を発揮します。

マルチモーダル融合

Transformers 複数言語対応

Gemma 3 12b It Qat 3bit

これはGoogle Gemma 3-12Bモデルを変換したMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B は Qwen2.5-VL-7B-Instruct をベースにしたマルチモーダルモデルで、動画テキストからテキストへの変換タスクに特化しています。

ビデオ生成テキスト

Transformers 英語

Jarvisvla Qwen2 VL 7B

『マインクラフト』専用に設計された視覚-言語-動作モデルで、人間の言語コマンドに基づいてゲーム内の数千のスキルを実行可能

画像生成テキスト

Transformers 英語

Qwen2.5 VL 3B UI R1

UI-R1は強化学習によって強化されたGUIエージェントの動作予測を行う視覚言語モデルで、Qwen2.5-VL-3B-Instructを基に構築されています。

テキスト生成画像英語

Vamba Qwen2 VL 7B

Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。

ビデオ生成テキスト

Qwen.qwen2 VL 2B GGUF

Qwen2-VL-2Bはマルチモーダルモデルで、画像とテキストの入力を処理し、テキスト出力を生成することができます。

画像生成テキスト

Videochatonline 4B

VideoChat-OnlineはPhi-3-vision-128k-instructを基にしたオンライン動画理解モデルで、動画テキストからテキストへの変換タスクに特化しています。

ビデオ生成テキスト

Smolvlm2 500M Video Instruct Mlx

これはMLX形式の動画テキスト変換モデルで、HuggingFaceTBによって開発され、英語の言語処理をサポートしています。

画像生成テキスト

Transformers 英語

Ultravox V0 5 Llama 3 1 8b

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers 複数言語対応

Fluxi AI Small Vision

Fluxi AIはQwen2-VL-7B-InstructをベースにしたマルチモーダルAIアシスタントで、テキスト、画像、動画処理能力を備え、特にポルトガル語サポートを最適化しています。

画像生成テキスト

Transformers その他

UGroundは強力なGUIビジュアル定位モデルで、簡単な方法で訓練され、OSUNLPとOrby AIが共同で開発しました。

マルチモーダル融合

Transformers 英語

UGroundはシンプルなレシピでトレーニングされた強力なGUIビジュアルポジショニングモデルで、OSU NLP GroupとOrby AIの協力により完成しました。

画像生成テキスト

Transformers 英語

Smolvlm Instruct

HuggingFaceTB/SmolVLM-Instructを基に微調整されたインテリジェントな視覚言語モデルで、UnslothとTRLライブラリを使用してトレーニング速度を最適化

テキスト生成画像

Transformers 英語

Dallahはアラビア語向けに特別設計された先進的なマルチモーダル大規模言語モデルで、特にアラビア方言間のコンテンツ理解と生成に重点を置いています。

テキスト生成画像

Safetensors アラビア語

PAE-LLaVa-7BはPAE（Proposer - Agent - Evaluator）フレームワークに基づく基礎モデルのインターネットインテリジェントエージェントで、自主技能発見に特化しています。

テキスト生成画像

OMEGA LabsとBittensorが共同開発したAny-to-Anyサブネットモデルで、複数のタスク変換をサポート

大規模言語モデルその他

Mini-Omni2は全インタラクティブなマルチモーダルモデルで、画像、音声、テキスト入力を理解し、ユーザーとエンドツーエンドの音声対話が可能です。

マルチモーダル融合

Sam2.1 Hiera Tiny

SAM 2はFAIRによって開発された、画像およびビデオのプロンプトに対応したビジュアルセグメンテーションの基礎モデルで、プロンプトによる効率的なセグメンテーションをサポートします。

画像セグメンテーション

Sam2.1 Hiera Small

SAM 2はFAIRが開発した、画像とビデオの視覚セグメンテーションをプロンプトで行うための基礎モデルで、プロンプトによる効率的なセグメンテーションをサポートします。

画像セグメンテーション

Sam2.1 Hiera Large

SAM 2はFAIRが開発した、画像とビデオに対応したプロンプト可能な視覚セグメンテーションの基礎モデルで、プロンプトによる汎用セグメンテーションタスクをサポートします。

画像セグメンテーション

Llava Video 7B Qwen2

LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。

ビデオ生成テキスト

Transformers 英語

Xgen Mm Phi3 Mini Instruct Interleave R V1.5

xGen-MMはSalesforce AI Researchが開発した最新の基礎大規模マルチモーダルモデル（LMMs）シリーズで、BLIPシリーズの成功した設計を基に改良され、基礎的な強化によりより強力で優れたモデル基盤を確保しています。

画像生成テキスト英語

Sam2 Hiera Small

FAIRが開発した基本モデルで、画像と動画におけるプロンプト可能な視覚セグメンテーションタスクを解決

画像セグメンテーション

Sam2 Hiera Tiny

SAM 2はFAIRが開発した画像とビデオ向けのプロンプト可能な視覚セグメンテーションの基礎モデルで、効率的なセグメンテーションをサポートします。

画像セグメンテーション

Sam2 Hiera Large

FAIRが開発した画像とビデオ向けのプロンプト可能な視覚セグメンテーションの基礎モデル

画像セグメンテーション

UGroundは簡潔なレシピでトレーニングされた強力なGUI視覚位置特定モデルで、オハイオ州立大学NLPグループとOrby AIの協力により完成しました。

画像生成テキスト

Internvideo2 Chat 8B

InternVideo2-Chat-8Bは大規模言語モデル(LLM)と動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、動画の意味理解と人間とのインタラクションが可能です。

ビデオ生成テキスト

Transformers 英語

Llava MORE Llama 3 1 8B Finetuning

LLaVA-MOREはLLaVAアーキテクチャを基にした拡張版で、LLaMA 3.1を言語モデルとして統合し、画像からテキストへのタスクに特化しています。

画像生成テキスト

Poppy Porpoise 0.72 L3 8B

Llama 3 8Bモデルを基にしたAIロールプレイングアシスタントで、没入型の物語体験を提供

大規模言語モデル

Poppy Porpoise V0.7 L3 8B

Llama 3 8Bモデルを基にしたAIロールプレイングアシスタント、インタラクティブなナラティブ体験の構築に特化

テキスト生成画像

Mixtral AI Vision 128k 7b

視覚と言語能力を結合したマルチモーダルモデルで、マージ手法により画像とテキストのインタラクション機能を実現します。

画像生成テキスト

Transformers 英語

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語処理能力を組み合わせ、画像とテキスト指示に基づいて応答を生成できます。

画像生成テキスト

Transformers 英語

Instructblip Flan T5 Xl 8bit Nf4

InstructBLIPはBLIP-2をベースにした視覚的指示チューニングモデルで、Flan-T5-xlを言語モデルとして使用し、画像とテキスト指示に基づいて説明を生成できます。

画像生成テキスト

Transformers 英語

Mediocreatmybest

Instructblip Flan T5 Xxl 8bit Nf4

InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語モデルを組み合わせ、画像とテキスト指示に基づいて説明を生成したり質問に答えたりできます。

画像生成テキスト

Transformers 英語

Mediocreatmybest

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase