モデル選定

マルチモーダルダイアログ

# マルチモーダルダイアログ

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ は autoawq を使用して InternVL2_5-4B を AWQ 量子化したバージョンで、多言語およびマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers その他

MMDuetは、ビデオ再生中のリアルタイムインタラクションをサポートするVideoLLMモデルで、時間感度の高いビデオ理解タスクに特化しています。

ビデオ生成テキスト英語

Mplug Owl3 1B 241014

mPLUG-Owl3 は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンス理解の課題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長を大幅に向上させます。

テキスト生成画像英語

Mplug Owl3 2B 241014

mPLUG-Owl3 は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンス理解の課題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長を大幅に向上させます。

テキスト生成画像

Safetensors 英語

Llava Llama 3 8b V1 1 Q5 K M GGUF

このモデルはxtuner/llava-llama-3-8b-v1_1を変換したGGUF形式バージョンで、llama.cppフレームワークに適しており、画像テキストからテキストへの変換タスクをサポートします。

画像生成テキスト

Llava NeXT Video 7B DPO

LLaVA-Next-Videoはオープンソースのマルチモーダルダイアログモデルで、大規模言語モデルをマルチモーダル指示追従データで微調整しており、ビデオとテキストのマルチモーダルインタラクションをサポートします。

テキスト生成ビデオ

Llava Next Mistral 7b 4096

LLaVA-v1.6-Mistral-7Bモデルを微調整したマルチモーダルモデルで、画像とテキストの統合理解と生成をサポート

テキスト生成画像

Tinyllava 1.1b V0.1

TinyLlama-1.1Bベースの軽量ビジュアルQAモデル、BakLlavaコードベースでトレーニング済み

テキスト生成画像

Llava 13b V0 4bit 128g

LLaVAは視覚と言語を統合したマルチモーダルモデルで、LLaMAアーキテクチャに基づき、画像理解と対話生成をサポートします。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase