モデル選定

マルチモーダル入力

# マルチモーダル入力

Gemma 3n E4B It Litert Preview GGUF

Gemma-3n-E4B-it-litert-previewはGoogleのGemma 3nモデルを微調整したバージョンで、画像とテキスト入力をサポートし、テキスト出力を生成し、マルチモーダルタスクに適しています。

画像生成テキスト

Transformers 英語

Mistral Small 3.2 24B Instruct 2506 GGUF

Mistral Small 3.2 24B Instruct 2506は多言語大規模言語モデルで、テキストと画像の入力、テキストの出力をサポートし、128kのコンテキスト長を持っています。

画像生成テキスト複数言語対応

lmstudio-community

Gemma 3n E2B It

Gemma 3nはGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。テキスト、オーディオ、ビジュアル入力をサポートし、様々なタスクに適用できます。

画像生成テキスト

Qwen2.5 Omni 7B GGUF

Qwen2.5-Omni-7B-GGUF は Qwen2.5-Omni-7B モデルの GGUF フォーマット版で、テキスト、音声、画像を含むマルチモーダル入力をサポートします。

大規模言語モデル英語

Qwen2.5 Omni 3B GGUF

Qwen2.5-Omni-3Bはマルチモーダルモデルで、テキスト、音声、画像の入力をサポートしますが、動画入力と音声生成はサポートしていません。

大規模言語モデル英語

DAM-3B-Videoは30億パラメータの視覚言語モデルで、ユーザーが指定した画像/動画領域に対して詳細な局所記述を生成できます。

画像生成テキスト

Safetensors 英語

Llama 4 Tiny Random

これは軽量級のランダム初期化されたテキスト生成モデルで、Llama - 4 - Maverick - 17B - 128E - Instructの設定を調整して作成され、主にデバッグ目的で使用されます。

画像生成テキスト

Gemma 3 12b Pt Qat Q4 0 Gguf

Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、テキストと画像の入力に対応しテキストを生成可能、128Kの超長文コンテキストウィンドウと140以上の言語をサポートしています。

画像生成テキスト

Ola-7Bは、テンセント、清華大学、南洋理工大学が共同開発したマルチモーダル言語モデルで、Qwen2.5アーキテクチャを基に、テキスト、画像、動画、音声の入力をサポートし、テキストコンテンツを出力します。

複数言語対応

Stable Diffusion 3.5 Large Controlnet Canny

Stable Diffusion 3.5大規模モデルに適応したCannyエッジ検出制御ネットワークで、画像生成プロセスを精密に制御

画像生成英語

DiTベースの初の動画生成モデルで、高品質な動画をリアルタイムに生成可能。テキストから動画、画像+テキストから動画の2つのシナリオに対応。

テキスト生成ビデオ英語

3DTopia-XLはPrimXの効率的な3D表現を基にした拡散Transformerアーキテクチャで、高品質な3Dアセットを迅速に生成可能

Sam2 Hiera Base Plus

SAM 2はFAIRが開発した画像とビデオのプロンプト可能な視覚セグメンテーションのための基盤モデルで、効率的なセグメンテーションをサポートします。

画像セグメンテーション

Diva Llama 3 V0 8b

DiVA Llama 3はエンドツーエンドの音声アシスタントモデルで、音声とテキスト入力を処理でき、蒸留損失を用いてトレーニングされています。

テキスト生成オーディオ

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase