モデル選定

高解像度画像理解

# 高解像度画像理解

Eurovlm 9B Preview

EuroVLM-9B-Previewは、EuroLLM-9Bの長文脈バージョンに基づくマルチモーダルビジュアル言語モデルで、複数の言語とビジュアルタスクをサポートし、現在はプレビューバージョンです。

画像生成テキスト

Transformers 複数言語対応

Janus-Proは革新的な自己回帰型フレームワークで、マルチモーダル理解と生成機能を統合しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャで処理することで、視覚エンコーダが理解と生成の役割間で生じる衝突を解決しました。

テキスト生成画像

Paligemma2 28b Pt 896

PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。

画像生成テキスト

Paligemma2 28b Mix 448

PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 10b Pt 896

PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能

画像生成テキスト

Paligemma2 10b Pt 448

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。

画像生成テキスト

Paligemma2 3b Pt 448

PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Ft Docci 448

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。

画像生成テキスト

Llama 3.1 8B Dragonfly V2

トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします

画像生成テキスト英語

togethercomputer

Convllava JP 1.3b 1280

ConvLLaVA-JPは高解像度入力に対応した日本語視覚言語モデルで、入力画像について対話が可能です。

画像生成テキスト

Transformers 日本語

Cogvlm2 Llama3 Chat 19B Int4

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。

テキスト生成画像

Transformers 英語

360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。

テキスト生成画像

Transformers 複数言語対応

Cogvlm2 Llama3 Chinese Chat 19B

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。

テキスト生成画像

Transformers 英語

Cogvlm2 Llama3 Chat 19B

CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。

テキスト生成画像

Transformers 英語

360VLはLLama3言語モデルをベースに開発されたマルチモーダルモデルで、強力な画像理解とバイリンガル対話能力を備えています。

テキスト生成画像

Transformers 複数言語対応

Paligemma 3b Pt 896

PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する多機能の軽量級視覚言語モデル(VLM)で、多言語能力を備えています。

画像生成テキスト

Paligemma 3b Ft Ocrvqa 448

PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。

画像生成テキスト

Xgen Mm Phi3 Mini Base R V1

XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。

画像生成テキスト

Transformers 英語

Xgen Mm Phi3 Mini Instruct R V1

xGen-MMはSalesforce AI Researchが開発した最新の基盤大規模マルチモーダルモデルシリーズで、BLIPシリーズを改良し、強力な画像理解とテキスト生成能力を備えています。

画像生成テキスト

Transformers 英語

Llava Llama 3 8b V1 1 Gguf

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336モデルをファインチューニングしたマルチモーダルモデルで、画像理解とテキスト生成をサポート

画像生成テキスト

Llava Llama 3 8b V1 1 Transformers

Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート

画像生成テキスト

モンキーモデルは効率的な大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル方法の改善により、複数の視覚タスクで優れた性能を発揮します。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase