Moondream 2b 2025 04 14 4bit
Apache-2.0
Moondreamは軽量級のビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。2025年4月14日にリリースされた4ビット量子化版は、高い精度を維持しながらメモリ使用量を大幅に削減しました。
画像生成テキスト
Safetensors
M
moondream
6,037
38
Agentcpm GUI
Apache-2.0
AgentCPM-GUIはRFT強化推論能力を備えたデバイスサイドのグラフィカルインターフェースエージェントで、中国語と英語のアプリを操作可能、80億パラメータのMiniCPM-Vを基に構築されています。
画像生成テキスト
Safetensors 複数言語対応
A
openbmb
541
94
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。
画像生成テキスト
Transformers 複数言語対応

U
mlx-community
184
1
Gemma 3 12b It Qat 3bit
その他
これはGoogle Gemma 3-12Bモデルを変換したMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト
Transformers その他

G
mlx-community
65
1
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B は Qwen2.5-VL-7B-Instruct をベースにしたマルチモーダルモデルで、動画テキストからテキストへの変換タスクに特化しています。
ビデオ生成テキスト
Transformers 英語

V
OpenGVLab
800
0
Jarvisvla Qwen2 VL 7B
MIT
『マインクラフト』専用に設計された視覚-言語-動作モデルで、人間の言語コマンドに基づいてゲーム内の数千のスキルを実行可能
画像生成テキスト
Transformers 英語

J
CraftJarvis
163
8
Qwen2.5 VL 3B UI R1
MIT
UI-R1は強化学習によって強化されたGUIエージェントの動作予測を行う視覚言語モデルで、Qwen2.5-VL-3B-Instructを基に構築されています。
テキスト生成画像 英語
Q
LZXzju
96
6
Vamba Qwen2 VL 7B
MIT
Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。
ビデオ生成テキスト
Transformers

V
TIGER-Lab
806
16
Videochatonline 4B
MIT
VideoChat-OnlineはPhi-3-vision-128k-instructを基にしたオンライン動画理解モデルで、動画テキストからテキストへの変換タスクに特化しています。
ビデオ生成テキスト
Safetensors
V
MCG-NJU
61
0
Smolvlm2 500M Video Instruct Mlx
Apache-2.0
これはMLX形式の動画テキスト変換モデルで、HuggingFaceTBによって開発され、英語の言語処理をサポートしています。
画像生成テキスト
Transformers 英語

S
mlx-community
2,491
12
Ultravox V0 5 Llama 3 1 8b
MIT
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
17.86k
12
Fluxi AI Small Vision
Apache-2.0
Fluxi AIはQwen2-VL-7B-InstructをベースにしたマルチモーダルAIアシスタントで、テキスト、画像、動画処理能力を備え、特にポルトガル語サポートを最適化しています。
画像生成テキスト
Transformers その他

F
JJhooww
25
2
Uground V1 2B
Apache-2.0
UGroundは強力なGUIビジュアル定位モデルで、簡単な方法で訓練され、OSUNLPとOrby AIが共同で開発しました。
マルチモーダル融合
Transformers 英語

U
osunlp
975
8
Uground V1 7B
Apache-2.0
UGroundはシンプルなレシピでトレーニングされた強力なGUIビジュアルポジショニングモデルで、OSU NLP GroupとOrby AIの協力により完成しました。
画像生成テキスト
Transformers 英語

U
osunlp
2,053
12
Smolvlm Instruct
Apache-2.0
HuggingFaceTB/SmolVLM-Instructを基に微調整されたインテリジェントな視覚言語モデルで、UnslothとTRLライブラリを使用してトレーニング速度を最適化
テキスト生成画像
Transformers 英語

S
mjschock
18
2
Dallah Llama
Dallahはアラビア語向けに特別設計された先進的なマルチモーダル大規模言語モデルで、特にアラビア方言間のコンテンツ理解と生成に重点を置いています。
テキスト生成画像
Safetensors アラビア語
D
alielfilali01
17
0
Command132
MIT
OMEGA LabsとBittensorが共同開発したAny-to-Anyサブネットモデルで、複数のタスク変換をサポート
大規模言語モデル その他
C
mrbeanlas
0
0
Mini Omni2
MIT
Mini-Omni2は全インタラクティブなマルチモーダルモデルで、画像、音声、テキスト入力を理解し、ユーザーとエンドツーエンドの音声対話が可能です。
マルチモーダル融合
M
gpt-omni
192
269
Sam2.1 Hiera Tiny
Apache-2.0
SAM 2はFAIRによって開発された、画像およびビデオのプロンプトに対応したビジュアルセグメンテーションの基礎モデルで、プロンプトによる効率的なセグメンテーションをサポートします。
画像セグメンテーション
S
facebook
12.90k
9
Sam2.1 Hiera Small
Apache-2.0
SAM 2はFAIRが開発した、画像とビデオの視覚セグメンテーションをプロンプトで行うための基礎モデルで、プロンプトによる効率的なセグメンテーションをサポートします。
画像セグメンテーション
S
facebook
7,333
6
Sam2.1 Hiera Large
Apache-2.0
SAM 2はFAIRが開発した、画像とビデオに対応したプロンプト可能な視覚セグメンテーションの基礎モデルで、プロンプトによる汎用セグメンテーションタスクをサポートします。
画像セグメンテーション
S
facebook
203.27k
81
Llava Video 7B Qwen2
Apache-2.0
LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。
ビデオ生成テキスト
Transformers 英語

L
lmms-lab
34.28k
91
Xgen Mm Phi3 Mini Instruct Interleave R V1.5
Apache-2.0
xGen-MMはSalesforce AI Researchが開発した最新の基礎大規模マルチモーダルモデル(LMMs)シリーズで、BLIPシリーズの成功した設計を基に改良され、基礎的な強化によりより強力で優れたモデル基盤を確保しています。
画像生成テキスト 英語
X
Salesforce
7,373
51
Sam2 Hiera Small
Apache-2.0
FAIRが開発した基本モデルで、画像と動画におけるプロンプト可能な視覚セグメンテーションタスクを解決
画像セグメンテーション
S
facebook
12.98k
13
Sam2 Hiera Tiny
Apache-2.0
SAM 2はFAIRが開発した画像とビデオ向けのプロンプト可能な視覚セグメンテーションの基礎モデルで、効率的なセグメンテーションをサポートします。
画像セグメンテーション
S
facebook
41.88k
20
Sam2 Hiera Large
Apache-2.0
FAIRが開発した画像とビデオ向けのプロンプト可能な視覚セグメンテーションの基礎モデル
画像セグメンテーション
S
facebook
155.85k
68
Uground
UGroundは簡潔なレシピでトレーニングされた強力なGUI視覚位置特定モデルで、オハイオ州立大学NLPグループとOrby AIの協力により完成しました。
画像生成テキスト
U
osunlp
208
23
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8Bは大規模言語モデル(LLM)と動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、動画の意味理解と人間とのインタラクションが可能です。
ビデオ生成テキスト
Transformers 英語

I
OpenGVLab
492
22
Llava MORE Llama 3 1 8B Finetuning
Apache-2.0
LLaVA-MOREはLLaVAアーキテクチャを基にした拡張版で、LLaMA 3.1を言語モデルとして統合し、画像からテキストへのタスクに特化しています。
画像生成テキスト
Transformers

L
aimagelab
215
9
Poppy Porpoise 0.72 L3 8B
その他
Llama 3 8Bモデルを基にしたAIロールプレイングアシスタントで、没入型の物語体験を提供
大規模言語モデル
Transformers

P
Nitral-AI
41
32
Poppy Porpoise V0.7 L3 8B
その他
Llama 3 8Bモデルを基にしたAIロールプレイングアシスタント、インタラクティブなナラティブ体験の構築に特化
テキスト生成画像
Transformers

P
Nitral-AI
32
47
Mixtral AI Vision 128k 7b
MIT
視覚と言語能力を結合したマルチモーダルモデルで、マージ手法により画像とテキストのインタラクション機能を実現します。
画像生成テキスト
Transformers 英語

M
LeroyDyer
384
4
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語処理能力を組み合わせ、画像とテキスト指示に基づいて応答を生成できます。
画像生成テキスト
Transformers 英語

I
benferns
20
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIPはBLIP-2をベースにした視覚的指示チューニングモデルで、Flan-T5-xlを言語モデルとして使用し、画像とテキスト指示に基づいて説明を生成できます。
画像生成テキスト
Transformers 英語

I
Mediocreatmybest
22
0
Instructblip Flan T5 Xxl 8bit Nf4
MIT
InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語モデルを組み合わせ、画像とテキスト指示に基づいて説明を生成したり質問に答えたりできます。
画像生成テキスト
Transformers 英語

I
Mediocreatmybest
22
1
Idefics 80b
その他
IDEFICS-9Bは90億パラメータのマルチモーダルモデルで、画像とテキスト入力を処理しテキスト出力を生成できます。DeepmindのFlamingoモデルのオープンソース再現版です。
画像生成テキスト
Transformers 英語

I
HuggingFaceM4
70
70
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98