# 高効率推論

Diffucoder 7B Cpgrpo 8bit
DiffuCoder-7B-cpGRPO-8bitはMLX形式に変換されたコード生成モデルで、apple/DiffuCoder-7B-cpGRPOをベースに変換され、開発者に高効率なコード生成ツールを提供するために設計されています。
大規模言語モデル その他
D
mlx-community
272
2
Qwen Qwen2.5 Coder 1.5B GGUF
Qwen2.5-Coder-1.5BのGGUF量子化バージョンで、コード生成タスクに最適化され、性能とリソース消費をバランスさせるための複数の量子化オプションを提供します。
大規模言語モデル
Q
featherless-ai-quants
228
1
Neobert GGUF
MIT
これはchandar - lab/NeoBERTモデルの静的量子化バージョンで、モデルの保存スペースと計算リソースの要件を削減することを目的としています。
大規模言語モデル Transformers 英語
N
mradermacher
219
1
Josiefied Qwen3 30B A3B Abliterated V2 4bit
これはQwen3-30Bモデルから変換された4ビット量子化バージョンで、MLXフレームワークのテキスト生成タスクに適しています。
大規模言語モデル
J
mlx-community
194
1
Huihui Ai.magistral Small 2506 Abliterated GGUF
慧慧AI量子化モデルはMagistral-Small-2506-abliteratedの量子化バージョンで、知識を誰もが利用できるようにすることに取り組んでいます。
大規模言語モデル
H
DevQuasar
423
1
Slanet Plus
Apache-2.0
SLANet_plusは表構造認識に使用されるモデルで、編集できない表画像を編集可能な表形式(HTMLなど)に変換でき、表認識システムで重要な役割を果たし、表認識の精度と効率を効果的に向上させることができます。
文字認識 複数言語対応
S
PaddlePaddle
1,121
0
Qwen.qwen3 Reranker 0.6B GGUF
Qwen3-Reranker-0.6Bの量子化バージョンで、知識を誰もが利用できるようにすることを目指しています。
大規模言語モデル
Q
DevQuasar
1,481
3
Minicpm4 MCP
Apache-2.0
MiniCPM4-MCPはオープンソースのエッジサイド大規模言語モデルのインテリジェントエージェントモデルで、80億パラメータのMiniCPM - 4をベースに構築されており、MCPを通じて様々なツールやデータリソースとインタラクションし、幅広い現実世界のタスクを解決することができます。
大規模言語モデル Transformers 複数言語対応
M
openbmb
367
14
Gemma 3 27b It Quantized.w4a16
これはgoogle/gemma-3-27b-itの量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、重み量子化と活性化量子化による最適化を行い、vLLMを使用して高効率推論が可能です。
画像生成テキスト Transformers
G
RedHatAI
302
1
Fpham Sydney Overthinker 13b HF GGUF
このプロジェクトは最適化されたGGUF量子化ファイルを提供し、モデルの性能を大幅に向上させることができます。これらの量子化ファイルはFeatherless AIによってサポートされており、ユーザーは少量の費用を支払うだけで、任意の必要なモデルを実行することができます。
大規模言語モデル
F
featherless-ai-quants
133
1
Deepseek R1 0528 GPTQ Int4 Int8Mix Compact
MIT
DeepSeek-R1-0528モデルのGPTQ量子化バージョンで、Int4 + 選択的Int8の量子化方式を採用し、生成品質を保ちながらファイルサイズを縮小します。
大規模言語モデル Transformers
D
QuantTrio
258
1
Deepseek R1 0528 Qwen3 8B AWQ 4bit
MIT
DeepSeek-R1-0528-Qwen3-8BのAWQ量子化バージョンで、特定のシーンでの高効率推論に適しています。
大規模言語モデル Transformers
D
hxac
179
2
Qvikhr 3 1.7B Instruction Noreasoning
Apache-2.0
QVikhr-3-1.7B-Instruction-noreasoningは、Qwen/Qwen3-1.7Bに基づく命令モデルで、ロシア語データセットGrandMaster2で訓練され、ロシア語と英語のテキストを高効率に処理するために設計されています。
大規模言語モデル Transformers
Q
Vikhrmodels
274
10
Deepseek R1 0528 Qwen3 8B MLX 4bit
MIT
DeepSeek AIによって開発された大規模言語モデルで、4ビット量子化による最適化が施され、Appleチップ搭載のデバイスに適しています。
大規模言語モデル
D
lmstudio-community
274.40k
1
Bytedance Seed.academic Ds 9B GGUF
このプロジェクトでは、academic - ds - 9Bの量子化バージョンを提供し、知識を誰もが利用できるようにすることを目指しています。
大規模言語モデル
B
DevQuasar
277
1
Ko Gemma 3 12b
これはHugging Face Hub上で公開されたtransformersモデルで、具体的な機能と用途は後日追加予定です。
大規模言語モデル Transformers
K
davidkim205
126
1
Qwen3 14B FP8 Dynamic
Apache-2.0
Qwen3-14B-FP8-dynamicは最適化された大規模言語モデルで、活性化値と重みをFP8データ型に量子化することで、GPUメモリの要件を効果的に削減し、計算スループットを向上させます。
大規模言語モデル Transformers
Q
RedHatAI
167
1
Industry Project V2
Apache-2.0
Mistralアーキテクチャに基づいて最適化された命令微調整モデルで、ゼロショット分類タスクに適しています。
大規模言語モデル
I
omsh97
58
0
Qwen3 32B MLX 4bit
Apache-2.0
このモデルはQwen3-32BのMLX形式の4ビット量子化バージョンで、Apple Siliconデバイスでの高効率実行に最適化されています。
大規模言語モデル
Q
lmstudio-community
32.14k
3
Internvl2 5 1B MNN
Apache-2.0
InternVL2_5-1Bに基づく4ビット量子化バージョンで、テキスト生成とチャットシーンに適しています。
大規模言語モデル 英語
I
taobao-mnn
2,718
1
Deepcogito Cogito V1 Preview Llama 70B 6bit
これはLlamaアーキテクチャに基づく70Bパラメータの大規模言語モデルで、6ビット量子化処理が施され、テキスト生成タスクに適しています。
大規模言語モデル
D
mlx-community
8,168
1
Mtmme Merge Gemma 2 9B NuSLERP W0.7 0.3
SLERP手法を用いて融合されたGemma-2Bの変種モデルで、2つの異なる重みのGemma-2Bモデルバージョンを組み合わせています。
大規模言語モデル Transformers
M
zelk12
16
2
Llama 3.1 8B RainbowLight EtherealMix GGUF
これはLlama-3.1-8B-RainbowLight-EtherealMixモデルに基づくGGUF形式の量子化バージョンで、テキスト生成関連のアプリケーション開発を行いやすくなっています。
大規模言語モデル
L
MaziyarPanahi
101
1
Snowflake Arctic Embed L V2.0 Gguf
Snowflake Arctic-embed-l-v2.0はSnowflakeがリリースした最新の埋め込みモデルで、多言語ワークロード向けに設計され、検索性能と推論効率が最適化されています。
テキスト埋め込み 複数言語対応
S
Casual-Autopsy
4,066
8
Aion RP Llama 3.1 8B GGUF
Apache-2.0
Aion-RP-Llama-3.1-8BのLlamacpp imatrix量化バージョンで、さまざまなハードウェア要件に対応するための複数の量化オプションを提供します。
大規模言語モデル
A
bartowski
159
1
Glm Edge V 2b Gguf
その他
画像テキストからテキストへの変換をサポートする高効率生成モデルで、様々なアプリケーションシーンに適用可能です。
画像生成テキスト 複数言語対応
G
THUDM
108
7
Jina Embeddings V3 Separation Distilled
jinaai/jina-embeddings-v3に基づく蒸留バージョンで、計算リソースが限られているか、リアルタイム性能が求められるシーンに特化して設計され、多言語テキスト埋め込み計算をサポートします。
テキスト埋め込み Safetensors
J
CISCai
3,294
2
Flux1 Schnell Quantized
Apache-2.0
Flux.1 Q_4_kはTakara.ai研究チームによって開発された4ビット量子化GGUFモデルで、stable-diffusion.cpp向けに最適化されており、低スペックハードウェアでも高品質な画像を効率的に生成できます。
画像生成
F
takara-ai
29
3
Lucie 7B
Apache-2.0
Lucie-7Bは、LINAGORAとOpenLLM-Franceが共同で構築した70億パラメータの多言語自己回帰型言語モデルで、Llama-3アーキテクチャに基づき、3兆トークンの多言語データで事前学習されています。
大規模言語モデル TensorBoard 複数言語対応
L
OpenLLM-France
1,262
20
Vikhr Llama 3.2 1B Instruct
Llama-3.2-1B-Instructをベースにしたロシア語最適化指令モデルで、効率が5倍向上し、低消費電力デバイスへのデプロイに適しています。
大規模言語モデル Transformers
V
Vikhrmodels
2,915
41
Molmo 7B D Bnb 4bit
Apache-2.0
Molmo-7B-DはBnB 4ビット量子化を施した大規模言語モデルで、モデルサイズが30GBから7GBに縮小され、VRAM要件が約12GBに抑えられます。
大規模言語モデル Transformers
M
cyan2k
1,994
17
FLUX.1 Schnell GGUF
Apache-2.0
FLUX.1-schnellの.gguf量子化バージョンで、テキストから画像への変換タスクに使用されます。
テキスト生成画像
F
OlegSkutte
121
4
AI21 Jamba Large 1.5
その他
AI21 Jamba 1.5は一連の高度な基礎モデルで、強力な長文脈処理能力と高効率な推論速度を備え、さまざまな業務シーンに適しています。
大規模言語モデル Safetensors 複数言語対応
A
ai21labs
2,642
216
Meta Llama 3.1 8B Instruct Quantized.w4a16
Meta-Llama-3.1-8B-Instructの量子化バージョンで、ディスク容量とGPUメモリの要件を削減するように最適化されており、英語のビジネスおよび研究用途のチャットアシスタントシナリオに適しています。
大規模言語モデル Transformers 複数言語対応
M
RedHatAI
27.51k
28
Meta Llama 3 70B Instruct FP8
Meta-Llama-3-70B-Instruct-FP8はMeta-Llama-3-70B-Instructの量子化バージョンで、FP8量子化によりディスク容量とGPUメモリの要件を削減し、同時に高いパフォーマンスを維持し、英語のビジネスおよび研究用途に適しています。
大規模言語モデル Transformers 英語
M
RedHatAI
22.10k
13
Mosaicml Mpt 7b Storywriter Bnb 4bit Smashed
PrunaAIが圧縮したMPT-7Bストーリーライティングモデル。llm-int8技術により高効率推論を実現
大規模言語モデル Transformers その他
M
PrunaAI
27
1
Mamba 790m Hf
Mambaは、transformersと互換性のある高効率シーケンスモデルで、7.9億のパラメータを持ち、因果言語モデリングタスクに適しています。
大規模言語モデル Transformers
M
state-spaces
6,897
4
Mythalion Kimiko V2 AWQ
その他
Mythalion Kimiko v2 - AWQは、nRuaifによって作成されたMythalion Kimiko v2モデルのAWQ量子化バージョンで、高効率、高精度、高速推論などの特徴を持っています。
大規模言語モデル Transformers
M
TheBloke
403
7
Meditron 7B AWQ
Meditron 7Bは、EPFL LLMチームによって開発された医療分野の大規模言語モデルで、Llama - 2 - 7Bをベースにさらに事前学習を行い、医療知識のエンコーディングと臨床決定支援に特化しています。
大規模言語モデル Transformers 英語
M
TheBloke
38.22k
3
Mistral 7B Instruct V0.1 GPTQ
Apache-2.0
Mistral 7B Instruct v0.1のGPTQ量子化バージョンで、ExLlamaまたはTransformersフレームワークでの実行をサポートします。
大規模言語モデル Transformers
M
TheBloke
7,481
82
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase