Vigorl 7b Spatial
ViGoRLは、強化学習によって微調整された視覚言語モデルで、テキストの推論ステップを視覚座標と明確に関連付け、正確な視覚推論と定位を実現します。
テキスト生成画像
Transformers

V
gsarch
319
1
GUI Actor 2B Qwen2 VL
MIT
GUI-Actor-2BはQwen2-VL-2Bに基づく視覚言語モデルで、グラフィカルユーザーインターフェイス(GUI)の位置特定タスク用に設計されています。アテンションベースのアクションヘッドを追加して微調整することで、複数のGUI位置特定ベンチマークテストで良好な結果を得ています。
テキスト生成画像
Transformers

G
microsoft
163
9
Bespoke MiniChart 7B
Bespoke Labsが開発した7Bパラメータ規模のオープンソースチャート理解視覚言語モデルで、チャートQAタスクにおいてGemini-1.5-Proなどのクローズドソースモデルを凌駕
テキスト生成画像
Safetensors 英語
B
bespokelabs
437
12
Instancecap Captioner
その他
Qwen2.5-VL-7B-Instructをinstancevidデータセットでファインチューニングした視覚言語モデルで、インスタンスレベルの画像記述生成に特化
画像生成テキスト
Transformers

I
AnonMegumi
14
1
Dreamer 7B
Apache-2.0
WebDreamerは現実世界のウェブエージェントタスクに対して効率的かつ効果的な計画を実現する計画フレームワークです。
画像生成テキスト
Transformers 英語

D
osunlp
62
3
Gemma 3 27b It GGUF
Gemma 3 27BパラメータのGGUF量子化バージョン、画像テキストインタラクションタスクをサポート
テキスト生成画像
G
Mungert
4,034
6
STEVE R1 7B SFT I1 GGUF
Apache-2.0
これはFanbin/STEVE-R1-7B-SFTモデルを重み/行列量子化したバージョンで、リソースが限られた環境に適しています。
テキスト生成画像 英語
S
mradermacher
394
0
Gemma 3 27b Pt Qat Q4 0 Gguf
GemmaはGoogleが提供する軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究技術に基づいています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理しテキスト出力を生成できます。
画像生成テキスト
G
google
633
24
Gemma 3 4b It GGUF
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140以上の言語をサポートしています。
画像生成テキスト
G
ggml-org
9,023
25
Q Sit
MIT
Q-SiT Miniは軽量な画像品質評価と対話モデルで、画像品質分析とスコアリングに特化しています。
画像生成テキスト
Transformers

Q
zhangzicheng
79
0
Llama 3 2 11b Vision Electrical Components Instruct
MIT
Llama 3.2 11B Vision Instruct は視覚と言語を組み合わせたマルチモーダルモデルで、画像からテキストへのタスクをサポートします。
画像生成テキスト 英語
L
ankitelastiq
22
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf は動画ベースのマルチモーダルモデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。
ビデオ生成テキスト
Safetensors 英語
L
FriendliAI
30
0
Internlm XComposer2 Enhanced
その他
InternLM2を基に開発された視覚言語大規模モデルで、優れたテキストと画像の理解・創作能力を備えています
テキスト生成画像
I
Coobiw
14
0
Florence 2 Base Castollux V0.4
microsoft/Florence-2-baseをファインチューニングした画像キャプション生成モデルで、記述品質とフォーマットの向上に焦点
画像生成テキスト
Transformers 英語

F
PJMixers-Images
23
1
Llava Llama3
LLaVA-Llama3はLlama-3をベースとしたマルチモーダルモデルで、画像とテキストの共同処理をサポートします。
画像生成テキスト
L
chatpig
360
1
UI TARS 7B DPO
Apache-2.0
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)インテリジェントエージェントモデルで、人間のような知覚、推論、行動能力でGUIとシームレスにインタラクションすることを目的としています。
画像生成テキスト
Transformers 複数言語対応

U
ByteDance-Seed
38.74k
206
UI TARS 2B SFT
Apache-2.0
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)エージェントモデルで、人間のような知覚、推論、行動能力を通じてGUIとシームレスにインタラクションすることを目的としています。
画像生成テキスト
Transformers 複数言語対応

U
ByteDance-Seed
5,553
19
UI TARS 2B SFT
Apache-2.0
UI-TARSは次世代のネイティブグラフィカルユーザーインターフェース(GUI)エージェントモデルで、人間のような知覚、推論、行動能力を通じてGUIとシームレスにインタラクションすることを目的としています。
画像生成テキスト
Transformers 複数言語対応

U
bytedance-research
5,792
19
Deqa Score Mix3
MIT
DeQA-Score-Mix3はMAGAer13/mplug-owl2-llama2-7bベースモデルをファインチューニングしたリファレンス不要の画像品質評価モデルで、複数のデータセットで優れた性能を発揮します。
画像生成テキスト
Transformers 英語

D
zhiyuanyou
4,177
2
Colqwen2 7b V1.0
Qwen2-VL-7B-InstructとColBERT戦略に基づく視覚検索モデルで、マルチベクトルテキストと画像表現をサポート
テキスト生成画像 英語
C
yydxlv
25
1
Videochat TPO
MIT
論文『タスク選好最適化:視覚タスクアライメントによるマルチモーダル大規模言語モデルの改善』に基づいて開発されたマルチモーダル大規模言語モデル
テキスト生成ビデオ
Transformers

V
OpenGVLab
18
5
Olympus
Apache-2.0
Olympusは汎用タスクルーティングシステムで、20種類の異なる視覚タスクを処理でき、タスクルーティングメカニズムを通じて効率的なマルチタスク処理を実現します。
テキスト生成画像
Transformers 英語

O
Yuanze
231
2
Llava Critic 7b Hf
これはtransformersと互換性のある視覚言語モデルで、画像理解とテキスト生成能力を備えています
テキスト生成画像
Transformers

L
FuryMartin
21
1
BLIP Radiology Model
BLIPはTransformerベースの画像キャプション生成モデルで、入力画像に対する自然言語の説明を生成できます。
画像生成テキスト
Transformers

B
daliavanilla
16
0
Colqwen2 V0.1
Apache-2.0
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、視覚的特徴を通じて文書を効率的にインデックス化可能
テキスト生成画像
Safetensors 英語
C
vidore
21.25k
170
Cogflorence 2.2 Large
MIT
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットで訓練され、アノテーションテキストはTHUDM/cogvlm2-llama3-chat-19Bによって生成され、画像からテキストへのタスクに適しています。
画像生成テキスト
Transformers 複数言語対応

C
thwri
20.64k
33
Lumina Mgpt 7B 512
Lumina-mGPTはマルチモーダル自己回帰モデルファミリーで、特にテキスト記述に基づいて柔軟でリアルな画像を生成するなど、さまざまな視覚と言語タスクを得意としています。
テキスト生成画像
L
Alpha-VLLM
1,185
4
Cogflorence 2 Large Freeze
MIT
これはmicrosoft/Florence-2-largeモデルのファインチューニング版で、Ejafa/ye-popデータセットの38,000枚の画像サブセットでトレーニングされ、CogVLM2で生成されたアノテーションを使用し、画像からテキストへのタスクに焦点を当てています。
画像生成テキスト
Transformers 複数言語対応

C
thwri
419
14
Tic CLIP Bestpool Sequential
その他
TiC-CLIPはTiC-DataComp-Yearlyデータセットでトレーニングされた視覚言語モデルで、継続的学習戦略を採用してモデルを最新データと同期させる
テキスト生成画像
T
apple
280
0
Tic CLIP Bestpool Oracle
その他
TiC-CLIPはOpenCLIPを改良した視覚言語モデルで、時間継続学習に焦点を当て、2014年から2022年までの訓練データをカバーしています
テキスト生成画像
T
apple
44
0
Llava Phi 3 Mini 4k Instruct
MIT
Phi-3-mini-3.8B大規模言語モデルとLLaVA v1.5を組み合わせた視覚言語モデルで、高度な視覚言語理解能力を提供します。
画像生成テキスト
Transformers

L
MBZUAI
550
22
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini は Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をファインチューニングした LLaVA モデルで、画像からテキストへの変換タスクに特化しています。
画像生成テキスト
L
xtuner
1,676
133
Moondream Next
moondreamのプレリリース版で、主に内部テスト用です。
大規模言語モデル
Transformers

M
vikhyatk
153
40
Vlrm Blip2 Opt 2.7b
MIT
強化学習手法で微調整されたBLIP-2 OPT-2.7Bモデルで、長く包括的な画像記述を生成可能
画像生成テキスト
Transformers 英語

V
sashakunitsyn
398
17
Blip Finetuned Fashion
Bsd-3-clause
このモデルはSalesforce/blip-vqa-baseをファインチューニングした視覚質問応答モデルで、ファッション分野に特化しています
テキスト生成画像
Transformers

B
Ornelas
2,281
0
Infimm Hd
InfiMM-HDは高解像度マルチモーダルモデルで、画像とテキストを組み合わせたコンテンツを理解し生成できます。
画像生成テキスト
Transformers 英語

I
Infi-MM
17
27
Tecoa2 Clip
MIT
OpenAI CLIPで初期化された視覚言語モデルで、ImageNetで教師あり敵対的ファインチューニングを行い、ロバスト性強化特性を備えています
テキスト生成画像
T
chs20
53
1
Fare2 Clip
MIT
OpenAI CLIPを初期化した視覚言語モデルで、教師なし敵対的微調整によりロバスト性を向上
テキスト生成画像
F
chs20
543
2
Fare4 Clip
MIT
OpenAI CLIPで初期化された視覚言語モデルで、教師なし敵対的微調整によりロバスト性を向上
テキスト生成画像
F
chs20
45
1
Internlm Xcomposer2 7b 4bit
その他
書生・浦語2はInternLM2をベースにした視覚言語大モデル(VLLM)で、先進的なテキストと画像の理解と創作能力を備えています。
画像生成テキスト
Transformers

I
internlm
74
10
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98