モデル選定

高精度視覚理解

# 高精度視覚理解

Mlcd Vit Bigg Patch14 448

MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。

Pixtral 12b Quantized.w8a8

mgoin/pixtral-12bをベースとしたINT8量子化バージョン、視覚-テキストマルチモーダルタスクをサポート、推論効率を最適化

画像生成テキスト

Transformers 英語

VARCO VISION 14B

VARCO-VISION-14B は強力な英韓視覚言語モデル（VLM）で、画像とテキスト入力をサポートし、テキスト出力を生成し、ローカライゼーション、引用、OCR機能を備えています。

画像生成テキスト

Transformers 複数言語対応

Xgen Mm Phi3 Mini Instruct Interleave R V1.5

xGen-MMはSalesforce AI Researchが開発した最新の基礎大規模マルチモーダルモデル（LMMs）シリーズで、BLIPシリーズの成功した設計を基に改良され、基礎的な強化によりより強力で優れたモデル基盤を確保しています。

画像生成テキスト英語

Florence 2 Large Ft Moredetailed

Florence-2-large-ftモデルをimageinwordsデータセットでファインチューニングし、より詳細な画像説明の生成に特化

画像生成テキスト

Transformers 英語

Git Base Minecraft

これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。

Transformers 複数言語対応

CogVLMは強力なオープンソースの視覚言語モデルで、複数のクロスモーダルベンチマークでリーダーボード性能を達成

テキスト生成画像

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase