Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigGは2次元回転位置エンコーディング(RoPE2D)を採用した先進的な視覚Transformerモデルで、ドキュメント理解と視覚質問応答タスクで優れた性能を発揮します。
文字認識
M
DeepGlint-AI
1,517
3
Pixtral 12b Quantized.w8a8
Apache-2.0
mgoin/pixtral-12bをベースとしたINT8量子化バージョン、視覚-テキストマルチモーダルタスクをサポート、推論効率を最適化
画像生成テキスト
Transformers 英語

P
RedHatAI
309
1
VARCO VISION 14B
VARCO-VISION-14B は強力な英韓視覚言語モデル(VLM)で、画像とテキスト入力をサポートし、テキスト出力を生成し、ローカライゼーション、引用、OCR機能を備えています。
画像生成テキスト
Transformers 複数言語対応

V
NCSOFT
1,022
28
Xgen Mm Phi3 Mini Instruct Interleave R V1.5
Apache-2.0
xGen-MMはSalesforce AI Researchが開発した最新の基礎大規模マルチモーダルモデル(LMMs)シリーズで、BLIPシリーズの成功した設計を基に改良され、基礎的な強化によりより強力で優れたモデル基盤を確保しています。
画像生成テキスト 英語
X
Salesforce
7,373
51
Florence 2 Large Ft Moredetailed
MIT
Florence-2-large-ftモデルをimageinwordsデータセットでファインチューニングし、より詳細な画像説明の生成に特化
画像生成テキスト
Transformers 英語

F
yayayaaa
227
13
Git Base Minecraft
MIT
これは視覚ベースの画像テキスト変換モデルで、画像の説明文を生成できます。
画像生成
Transformers 複数言語対応

G
orzhan
22
0
Cogvlm Chat Hf
Apache-2.0
CogVLMは強力なオープンソースの視覚言語モデルで、複数のクロスモーダルベンチマークでリーダーボード性能を達成
テキスト生成画像
Transformers 英語

C
THUDM
4,816
193
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98