# 高精度視覚理解

Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
文字認識
M
DeepGlint-AI
1,517
3
Pixtral 12b Quantized.w8a8
Apache-2.0
mgoin/pixtral-12bをベースとしたINT8量子化バージョン、視覚-テキストマルチモーダルタスクをサポート、推論効率を最適化
画像生成テキスト Transformers 英語
P
RedHatAI
309
1
VARCO VISION 14B
VARCO-VISION-14B は強力な英韓視覚言語モデル(VLM)で、画像とテキスト入力をサポートし、テキスト出力を生成し、ローカライゼーション、引用、OCR機能を備えています。
画像生成テキスト Transformers 複数言語対応
V
NCSOFT
1,022
28
Xgen Mm Phi3 Mini Instruct Interleave R V1.5
Apache-2.0
xGen-MMはSalesforce AI Researchが開発した最新の基礎大規模マルチモーダルモデル(LMMs)シリーズで、BLIPシリーズの成功した設計を基に改良され、基礎的な強化によりより強力で優れたモデル基盤を確保しています。
画像生成テキスト 英語
X
Salesforce
7,373
51
Florence 2 Large Ft Moredetailed
MIT
Florence-2-large-ftモデルをimageinwordsデータセットでファインチューニングし、より詳細な画像説明の生成に特化
画像生成テキスト Transformers 英語
F
yayayaaa
227
13
Git Base Minecraft
MIT
これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。
画像生成 Transformers 複数言語対応
G
orzhan
22
0
Cogvlm Chat Hf
Apache-2.0
CogVLMは強力なオープンソースの視覚言語モデルで、複数のクロスモーダルベンチマークでリーダーボード性能を達成
テキスト生成画像 Transformers 英語
C
THUDM
4,816
193
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase