Devstral Small Vision 2505 GGUF
Apache-2.0
Mistral Smallモデルを基にした視覚エンコーダーで、画像テキスト生成タスクをサポートし、llama.cppフレームワークに適応
画像生成テキスト
D
ngxson
777
20
Google.medgemma 4b It GGUF
MedGemma-4B-ITは医療分野に特化した画像テキスト生成モデルで、Googleによって開発されました。
画像生成テキスト
G
DevQuasar
6,609
1
T0 3B
Apache-2.0
T0++はT5アーキテクチャに基づく自然言語処理モデルで、マルチタスクプロンプトトレーニングによりゼロショットタスク汎化能力を実現し、多くのNLPタスクでGPT-3を上回りながらよりコンパクトです。
大規模言語モデル
Transformers 英語

T
bigscience
3,723
100
Internvl3 8B Bf16
その他
InternVL3-8B-bf16 はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。
画像生成テキスト
Transformers その他

I
mlx-community
96
1
Gemma 3 27B It Qat GGUF
Googleが提供するGemma 3 27B ITモデルは、様々なテキスト生成や画像理解タスクに適しており、128kトークンのコンテキスト長とマルチモーダル画像処理をサポートします。
画像生成テキスト
G
lmstudio-community
41.35k
8
VL Rethinker 7B 8bit
Apache-2.0
VL-Rethinker-7B-8bit は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダルモデルで、視覚質問応答タスクをサポートします。
テキスト生成画像
Transformers 英語

V
mlx-community
21
0
VL Rethinker 7B Fp16
Apache-2.0
このモデルはQwen2.5-VL-7B-Instructを変換したマルチモーダル視覚言語モデルで、視覚質問応答タスクをサポートします。
テキスト生成画像
Transformers 英語

V
mlx-community
17
0
Gemma 3 27b It Uncensored
このモデルはtransformersライブラリに基づくモデルで、具体的な機能と用途はさらなる情報確認が必要です。
大規模言語モデル
Transformers

G
braindao
57
2
Vora 7B Instruct
VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。
画像生成テキスト
Transformers

V
Hon-Wong
154
12
Vora 7B Base
VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト
Transformers

V
Hon-Wong
62
4
Gemma 3 27b Tools Q5 K M GGUF
このモデルはGemma-3-27b-toolsを変換したGGUF形式バージョンで、ローカル推論タスクに適しています。
大規模言語モデル
G
attashe
101
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct は、画像とテキストの共同理解と生成タスクをサポートするマルチモーダル視覚言語モデルです。
画像生成テキスト 英語
Q
samgreen
25.59k
6
Gemma 3 4b It Uncensored DBL X Int2 Quantized
Transformersライブラリに基づく事前学習済みモデル、自然言語処理タスクに適応
大規模言語モデル
Transformers

G
Kfjjdjdjdhdhd
39
1
Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instruct はマルチモーダルな視覚言語モデルで、画像とテキストのインタラクティブな生成タスクをサポートします。
画像生成テキスト 英語
Q
samgreen
2,073
1
ARPG
MIT
ARPGは革新的な自己回帰画像生成フレームワークで、GPT風の因果的アーキテクチャによりBERT風のマスクモデリングを実現します。
画像生成
A
hp-l33
68
2
Distill Any Depth Large Hf
MIT
Distill-Any-Depthは新しいSOTA単眼深度推定モデルで、知識蒸留アルゴリズムを用いて訓練されています。
3Dビジョン
Transformers

D
xingyang1
2,322
2
Llama 3.1 8b DodoWild V2.01
Llama 3.1アーキテクチャに基づく8Bパラメータ言語モデルで、mergekitを使用して複数のモデルを統合し、テキスト生成能力を備えています
大規模言語モデル
Transformers

L
Nexesenex
58
2
Llama 3.1 8b Smarteaz V1.01
Llama 3.1アーキテクチャに基づく8Bパラメータモデルで、mergekitを使用して複数のSmarteazシリーズモデルを統合し、テキスト生成タスクに特化
大規模言語モデル
Transformers

L
Nexesenex
85
3
Li 14b V0.4 Slerp0.1
これはSLERP手法を用いて統合された140億パラメータ規模の大規模言語モデルで、li-14b-v0.4とmiscii-14b-0218の2つの基本モデルを統合して作成されました。
大規模言語モデル
Transformers

L
wanlige
70
7
Qwen2.5 14B CIC ACLARC
Apache-2.0
Qwen 2.5 14B Instructをファインチューニングした引用意図分類モデルで、科学出版物における引用意図分類に特化しています。
テキスト分類
Transformers 英語

Q
sknow-lab
24
2
Deepseek R1 Distill Phi 3 Mini 4k Lorar8 Alpha16 50000samples
MIT
Deepseek-R1の知識蒸留に基づく推論モデルで、連鎖思考(CoT)推論能力をサポート
大規模言語モデル
Safetensors 英語
D
GPD1
71
4
Llava Llama3
LLaVA-Llama3はLlama-3をベースとしたマルチモーダルモデルで、画像とテキストの共同処理をサポートします。
画像生成テキスト
L
chatpig
360
1
Modernbert Large Nli
Apache-2.0
ModernBERT-largeをベースにしたマルチタスクファインチューニングモデルで、自然言語推論(NLI)タスクに特化しており、ゼロショット分類や推論タスクで優れた性能を発揮します。
大規模言語モデル
Transformers 複数言語対応

M
p-christ
39
0
Mt0 Xxl Mt Q4 K M GGUF
Apache-2.0
このモデルはbigscience/mt0-xxl-mtからllama.cppを使用してGGUF形式に変換された多言語テキスト生成モデルで、さまざまな言語タスクをサポートしています。
大規模言語モデル 複数言語対応
M
Markobes
14
1
Eagle2 1B
イーグル2は高性能な視覚言語モデルファミリーで、データ戦略とトレーニング手法の透明性に重点を置き、競争力のある視覚言語モデルのオープンソースコミュニティ開発を推進することを目的としています。
画像生成テキスト
Transformers その他

E
nvidia
1,791
23
Llava SpaceSGG
Apache-2.0
LLaVA-SpaceSGGはLLaVA-v1.5-13bをベースとした視覚質問応答モデルで、シーングラフ生成タスクに特化しており、画像内容を理解し構造化されたシーン記述を生成できます。
テキスト生成画像
Safetensors 英語
L
wumengyangok
36
0
Moxin 7B LLM
Apache-2.0
Moxin 7Bは強力なオープンソースの大規模言語モデルで、基礎モデルやチャットモデルなどの複数のタイプを提供し、複数の一般的なデータセットで良好な性能を示しています。
大規模言語モデル
Transformers

M
moxin-org
134
17
Aim Xlarge
MIT
AiMはPyTorchベースの無条件画像生成モデルで、PytorchModelHubMixinを介してHugging Face Hubに統合されています。
画像生成
A
hp-l33
23
5
Florence 2 Flux Large
Apache-2.0
Microsoft Florence-2-largeを基にした視覚言語モデルで、画像理解とテキスト生成タスクに優れています
画像生成テキスト
Transformers 複数言語対応

F
gokaygokay
14.96k
45
Minicpm Llama3 V 2 5 GGUF
MiniCPM-Llama3-V-2_5はLlama3アーキテクチャに基づくマルチモーダル視覚質問応答モデルで、中英二言語のインタラクションをサポートします。
テキスト生成画像 複数言語対応
M
gaianet
112
3
Depth Anything V2 Metric Indoor Large Hf
Depth Anything V2をHypersim合成データセットで屋内メトリック深度推定用にファインチューニングしたバージョン、transformersライブラリ互換。
3Dビジョン
Transformers

D
depth-anything
47.99k
9
Depth Anything V2 Metric Indoor Base Hf
Depth Anything V2モデルを基に、屋内計量深度推定タスク向けにHypersim合成データセットでファインチューニングしたバージョン
3Dビジョン
Transformers

D
depth-anything
9,056
1
Depth Anything V2 Metric Indoor Small Hf
Depth Anything V2を基に、屋内計量深度推定タスク向けにファインチューニングされたモデル。合成データセットHypersimで訓練され、transformersライブラリと互換性があります。
3Dビジョン
Transformers

D
depth-anything
750
2
Depth Anything V2 Metric Outdoor Small Hf
Depth Anything V2をベースにしたファインチューニング版で、屋外シーンのメトリック深度推定のために設計され、合成データセットVirtual KITTIで訓練されています。
3Dビジョン
Transformers

D
depth-anything
459
1
Sd3 Long Captioner V2
Apache-2.0
PaliGemma 224x224バージョンをファインチューニングした画像からテキスト生成モデルで、詳細な芸術画像の説明生成に特化
画像生成テキスト
Transformers 複数言語対応

S
gokaygokay
135
25
Latte 1
Apache-2.0
LatteはTransformerベースの潜在拡散モデルで、テキストから動画生成タスクに特化しており、複数のデータセットの事前学習済み重みをサポートしています。
テキスト生成ビデオ
L
maxin-cn
1,027
19
Flan T5 Tsa Prompt Xl
MIT
Flan-T5-xlを微調整したターゲット感情分析モデルで、英語テキストの感情傾向判断(ポジティブ/ネガティブ/ニュートラル)をサポート
テキスト分類
Transformers 英語

F
nicolay-r
45
1
Chronos T5 Base
Apache-2.0
Chronosは言語モデルアーキテクチャに基づく事前学習済み時系列予測モデルファミリーで、量子化とスケーリングにより時系列をトークン系列に変換して学習します。
気候モデル
Transformers

C
autogluon
82.42k
5
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。
画像生成テキスト
Transformers 英語

X
Salesforce
240
18
Llava V1.6 Mistral 7b Partial Med
Apache-2.0
Llava-v1.6-mistral は視覚言語モデル(Vision-Language Model)に基づく医療視覚質問応答システムで、医療画像に関連する質問を理解し回答することができます。
画像生成テキスト
Transformers

L
rbojja
16
1
- 1
- 2
- 3
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98