# 効率的な推論

ERNIE 4.5 21B A3B PT 8bit
Apache-2.0
ERNIE-4.5-21B-A3B-PT-8bitは、百度のERNIE-4.5-21B-A3B-PTモデルの8ビット量子化バージョンで、MLX形式に変換されており、Appleチップ搭載のデバイスに適しています。
大規模言語モデル 複数言語対応
E
mlx-community
123
1
Wan2.1 14B T2V FusionX GGUF
Apache-2.0
これはテキストからビデオへの変換を行う量子化モデルで、テキスト記述をビデオコンテンツに変換することができ、GGUF量子化処理を施して推論効率を向上させています。
テキスト生成ビデオ 英語
W
QuantStack
133
1
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instructの重み/行列量子化モデルで、英語音声テキスト変換タスクをサポート
テキスト生成オーディオ Transformers 英語
Q
mradermacher
282
0
Deepseek R1 0528 4bit
DeepSeek-R1-0528-4bit は DeepSeek-R1-0528 をベースに変換された4ビット量子化モデルで、MLXフレームワーク向けに最適化されています。
大規模言語モデル
D
mlx-community
157
9
Llm Jp 3.1 1.8b Instruct4
Apache-2.0
日本国立情報学研究所によって開発された大規模言語モデルで、LLM-jp-3をベースに構築され、指令事前学習技術を通じて指令に従う能力が大幅に向上しています。
大規模言語モデル Transformers 複数言語対応
L
llm-jp
165
3
Llm Jp 3.1 1.8b
Apache-2.0
LLM-jp-3.1-1.8bは日本国立情報学研究所によって開発された大規模言語モデルで、LLM-jp-3シリーズに基づき、指令事前学習を組み込んで指令遵守能力を強化しています。
大規模言語モデル Transformers 複数言語対応
L
llm-jp
572
1
Dmindai.dmind 1 GGUF
DMind-1はテキスト生成の基盤モデルであり、知識の自由な伝播を目指しています。
大規模言語モデル
D
DevQuasar
226
1
Dmindai.dmind 1 Mini GGUF
DMind-1-miniは軽量なテキスト生成モデルで、様々な自然言語処理タスクに適しています。
テキスト生成
D
DevQuasar
213
1
Devstral Small 2505 GGUF
Apache-2.0
Devstral-Small-2505の量子化バージョン、さまざまなハードウェア要件に対応するための複数の精度オプションを提供
大規模言語モデル 複数言語対応
D
Antigma
170
1
Google.medgemma 27b Text It GGUF
MedGemma-27B-Text-ITはGoogleが開発した大規模言語モデルで、医療分野のテキスト生成タスクに特化しています。
大規模言語モデル
G
DevQuasar
593
1
Devstral Small 2505 MLX 4bit
Apache-2.0
mistralaiによって開発されたDevstral-Small-2505モデルは、MLX 4ビット量子化で最適化され、Apple Siliconデバイスに適しています。
大規模言語モデル 複数言語対応
D
lmstudio-community
57.83k
3
Facebook KernelLLM GGUF
その他
KernelLLMはFacebookが開発した大規模言語モデルで、このバージョンはllama.cppツールを使用してimatrix量子化を行ったバージョンです。さまざまなハードウェア要件に対応するために複数の量子化オプションを提供します。
大規模言語モデル
F
bartowski
5,151
2
A M Team AM Thinking V1 GGUF
Apache-2.0
a-m-team/AM-Thinking-v1モデルに基づくLlamacpp imatrix量子化バージョンで、複数の量子化タイプをサポートし、テキスト生成タスクに適しています。
大規模言語モデル
A
bartowski
671
1
Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5は10億パラメータの視覚言語モデルで、画像テキスト生成タスクをサポートします。
テキスト生成画像
V
rootonchair
242
1
Sam Reason S2.1 GGUF
MIT
Sam-reason-S2.1の静的量子化バージョンで、さまざまなハードウェア要件に対応するための複数量子化オプションを提供
大規模言語モデル 英語
S
mradermacher
299
1
Tngtech.deepseek R1T Chimera GGUF
DeepSeek-R1T-Chimeraはテキスト生成モデルで、tngtechの技術を基に開発され、効率的な自然言語処理タスクに特化しています。
大規模言語モデル
T
DevQuasar
1,407
2
Thedrummer Snowpiercer 15B V1 GGUF
MIT
TheDrummer/Snowpiercer-15B-v1モデルを基にした量子化バージョンで、llama.cppを使用して量子化されており、テキスト生成タスクに適しています。
大規模言語モデル
T
bartowski
4,783
1
Mellum 4b Sft Rust GGUF
Apache-2.0
Rustコードの中間補完(FIM)タスク向けにファインチューニングされた大規模言語モデル、JetBrains/Mellum-4b-baseを基に構築
大規模言語モデル 複数言語対応
M
Etherll
389
1
Ling Lite 1.5
MIT
霊曦はInclusionAIがオープンソース化した大規模混合エキスパート言語モデルで、簡易版は総パラメータ168億、活性化パラメータ27.5億を有し、卓越した性能を発揮します。
大規模言語モデル Transformers
L
inclusionAI
46
3
Apriel Nemotron 15b Thinker
MIT
ServiceNowが提供する150億パラメータの効率的な推論モデルで、メモリ使用量は同クラスの先進モデルの半分のみ
大規模言語モデル Transformers
A
ServiceNow-AI
1,252
86
Qwen3 30B A3B 4bit DWQ
Apache-2.0
これはQwen3-30B-A3Bモデルを基にした4ビット量子化バージョンで、6ビット量子化から4ビットに蒸留したカスタムDWQ量子化技術を使用して作成され、テキスト生成タスクに適しています。
大規模言語モデル
Q
mlx-community
561
19
Qwen3 30B A3B FP8 Dynamic
Apache-2.0
Qwen3-30B-A3B-FP8-dynamicはQwen3-30B-A3BモデルをFP8量子化で最適化したバージョンで、メモリ要件と計算コストを大幅に削減しながら、元のモデルの高い精度を維持しています。
大規模言語モデル Transformers
Q
RedHatAI
187
2
Qwen3 8B AWQ
Apache-2.0
Qwen3-8B-AWQは通義千問シリーズ最新世代の8.2Bパラメータを持つ大規模言語モデルで、AWQ 4-bit量子化技術を用いて推論効率を最適化しています。思考モードと非思考モードの切り替えをサポートし、優れた推論能力、指示追従能力、エージェント能力を備えています。
大規模言語モデル Transformers
Q
Qwen
13.99k
2
Qwen3 8B FP8 Dynamic
Apache-2.0
Qwen3-8B-FP8-dynamicはQwen3-8BモデルをFP8量子化で最適化したバージョンで、GPUメモリ要件とディスク使用量を大幅に削減しながら、元のモデルの性能を維持しています。
大規模言語モデル Transformers
Q
RedHatAI
81
1
Falcon H1 3B Base
その他
ファルコンH1はアラブ首長国連邦技術革新研究所によって開発されたハイブリッドアーキテクチャ言語モデルで、TransformerとMambaアーキテクチャを組み合わせ、多言語処理をサポート
大規模言語モデル Transformers 複数言語対応
F
tiiuae
334
3
Qwen3 4B GGUF
Apache-2.0
Qwen3-4BはQwen3-4B-Baseを基にしたGGUF形式モデルで、テキスト生成タスクに適しています。
大規模言語モデル
Q
Mungert
1,507
7
Mimo 7B RL
MIT
MiMo-7B-RLはMiMo-7B-SFTモデルを基に強化学習で訓練されたモデルで、数学とコード推論タスクで優れた性能を発揮し、OpenAI o1-miniに匹敵する性能を持っています。
大規模言語モデル Transformers
M
XiaomiMiMo
11.79k
252
Qwen3 8B GGUF
MIT
ZeroWwは量子化されたテキスト生成モデルで、出力と埋め込みテンソルはf16形式を使用し、残りのテンソルはq5_kまたはq6_k形式を使用しており、体積が小さく純粋なf16と同等の性能を発揮します。
大規模言語モデル 英語
Q
ZeroWw
236
1
Qwen3 4B GGUF
MIT
量子化されたテキスト生成モデルで、出力と埋め込みテンソルはf16形式、その他のテンソルはq5_kまたはq6_k量子化されており、体積が小さく純粋なf16バージョンと同等の性能を維持しています。
大規模言語モデル 英語
Q
ZeroWw
495
2
Qwen Qwen3 4B GGUF
Qwenチームが提供するQwen3-4BのLlamacpp imatrix量子化バージョンで、複数の量子化タイプをサポートし、テキスト生成タスクに適しています。
大規模言語モデル
Q
bartowski
10.58k
9
Qwen3 8B Base
Apache-2.0
Qwen3-8B-Baseは通義大規模言語モデルシリーズの最新世代の製品で、82億のパラメータを持ち、119種類の言語をサポートし、様々な自然言語処理タスクに適しています。
大規模言語モデル Transformers
Q
unsloth
5,403
1
Qwen3 0.6B Base Unsloth Bnb 4bit
Apache-2.0
Qwen3-0.6B-Baseは通義シリーズの最新世代の大規模言語モデルで、0.6Bのパラメータ規模を持ち、119種類の言語をサポートし、文脈長は32,768トークンに達します。
大規模言語モデル Transformers
Q
unsloth
10.84k
1
Meta Llama 3.1 8B Instruct Quantized.w8a8
これはMeta-Llama-3.1-8B-InstructモデルのINT8量子化バージョンで、重み量子化と活性化量子化により最適化され、多言語のビジネスや研究用途に適しています。
大規模言語モデル Transformers 複数言語対応
M
RedHatAI
9,087
16
Deepthink 1.5B Open PRM Q8 0 GGUF
Apache-2.0
Deepthink-1.5B-Open-PRMは1.5Bパラメータのオープンソース言語モデルで、llama.cppで使用できるようGGUF形式に変換されています。
大規模言語モデル 英語
D
prithivMLmods
46
2
Alibaba Pai.distilqwen2.5 DS3 0324 32B GGUF
阿里巴巴PAIがリリースした軽量版Qwen2.5大規模言語モデル、効率的なテキスト生成タスクに特化
大規模言語モデル
A
DevQuasar
1,117
4
GLM Z1 32B 0414 4bit
MIT
このモデルはTHUDM/GLM-Z1-32B-0414を変換した4ビット量子化バージョンで、テキスト生成タスクに適しています。
大規模言語モデル 複数言語対応
G
mlx-community
225
2
Mistral Community Pixtral 12b GGUF
Apache-2.0
これはpixtral-12bモデルの量子化バージョンで、llama.cppを使用して量子化されており、画像テキストからテキストへのタスクをサポートします。
M
bartowski
1,728
4
Bge Multilingual Gemma2 GPTQ
Apache-2.0
これはBAAI/bge-multilingual-gemma2モデルの4ビットGPTQ量子化バージョンで、多言語テキスト埋め込みタスクをサポートします。
テキスト埋め込み Transformers
B
shuyuej
34
5
Gemma 3 27b It Qat GGUF
Gemma 3はGoogleがGemini技術に基づいて構築した軽量オープンモデルシリーズで、マルチモーダル入力とテキスト出力をサポートし、128Kの大規模コンテキストウィンドウと140以上の言語サポートを備えています。
テキスト生成画像 英語
G
unsloth
2,683
3
OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
SigLIPアーキテクチャに基づく軽量な視覚言語モデルで、より大きなSigLIP-400mモデルから蒸留技術を用いて知識を抽出し、ゼロショット画像分類タスクに適しています。
画像分類
O
PumeTu
30
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase