# 効率的なデプロイ

Gemma 3 4b It Quantized.w4a16
google/gemma-3-4b-itに基づく量子化バージョンで、INT4重み量子化とFP16活性化量子化を採用し、推論効率を最適化しています。
画像生成テキスト Transformers
G
RedHatAI
195
1
GLM 4 32B 0414 4bit DWQ
MIT
これはTHUDM/GLM-4-32B-0414モデルのMLXフォーマット版で、4ビットDWQ量子化処理が施されており、Appleチップデバイス向けの効率的な推論に適しています。
大規模言語モデル 複数言語対応
G
mlx-community
156
4
Spec T1 RL 7B
MIT
Spec-T1-RL-7Bは、数学的推論、アルゴリズム問題の解決、コード生成に特化した高精度の大規模言語モデルで、技術ベンチマークテストで卓越した性能を発揮します。
大規模言語モデル Safetensors 英語
S
SVECTOR-CORPORATION
4,626
6
Qwen3 30B A3B Gptq 8bit
Apache-2.0
Qwen3 30B A3BはGPTQメソッドを用いて8ビット量子化処理を施した大規模言語モデルで、効率的な推論シナリオに適しています。
大規模言語モデル Transformers
Q
btbtyler09
301
2
Whisper Large V3 Turbo Quantized.w4a16
Apache-2.0
openai/whisper-large-v3-turboをベースにしたINT4重み量子化バージョンで、効率的な音声をテキストに変換するタスクをサポートします。
音声認識 Transformers 英語
W
RedHatAI
1,851
2
Orpheus 3b 0.1 Ft Q4 K M GGUF
Apache-2.0
Orpheus-3B-0.1-FT の GGUF 量子化バージョン、効率的な推論に適しています
大規模言語モデル 英語
O
freddyaboulton
30
1
Llama 2 7b Chat Hf GGUF
Llama 2はMetaが開発した70億パラメータ規模の大規模言語モデルで、さまざまなハードウェア要件に対応するために複数の量子化バージョンを提供しています。
大規模言語モデル 英語
L
Mungert
1,348
3
Qwq 32B Bnb 4bit
Apache-2.0
QwQ-32Bの4ビット量子化バージョンで、Bitsandbytes技術を使用して最適化されており、リソースが制限された環境での効率的な推論に適しています
大規模言語モデル Transformers
Q
onekq-ai
167
2
Qwen2.5 VL 7B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-7B-InstructのFP8量子化バージョンで、vLLMを通じて効率的なビジュアル - テキスト推論をサポートします。
テキスト生成画像 Transformers 英語
Q
RedHatAI
25.18k
1
Deepseek R1 Distill Llama 70B FP8 Dynamic
MIT
DeepSeek-R1-Distill-Llama-70BのFP8量子化バージョン。重みと活性化のビット数を減らすことで推論性能を最適化します。
大規模言語モデル Transformers
D
RedHatAI
45.77k
9
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924の4ビット量子化バージョンで、NF4量子化戦略を通じてVRAM使用量を削減し、VRAMが制限された環境に適しています。
画像生成テキスト Transformers
M
Scoolar
1,259
1
Pixtral 12b FP8 Dynamic
Apache-2.0
pixtral-12b-FP8-dynamicはmistral-community/pixtral-12bの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を約50%削減し、複数の言語の商用および研究用途に適しています。
テキスト生成画像 Safetensors 複数言語対応
P
RedHatAI
87.31k
9
QQQ Llama 3 8b G128
MIT
これはLlama-3-8bモデルを基にINT4量子化を行ったバージョンで、QQQ量子化技術を採用し、グループサイズは128で、ハードウェアに対して最適化されています。
大規模言語モデル Transformers
Q
HandH1998
1,708
2
Llama 3 8B Instruct GPTQ 4 Bit
その他
これはMeta Llama 3をベースに構築された4ビット量子化GPTQモデルで、Astronomerによって量子化され、低VRAMデバイスで効率的に動作します。
大規模言語モデル Transformers
L
astronomer
2,059
25
Moritzlaurer Roberta Base Zeroshot V2.0 C Onnx
Apache-2.0
これはMoritzLaurer/roberta-base-zeroshot-v2.0-cモデルのONNX形式変換バージョンで、ゼロショット分類タスクに適しています。
テキスト分類 Transformers
M
protectai
14.94k
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase