L

Llama 3.1 Nemotron Nano 8B V1 GGUF

Mungertによって開発
Llama-3アーキテクチャに基づく8Bパラメータモデルで、IQ-DynamicGate超低ビット量子化技術によりメモリ使用を最適化
ダウンロード数 2,088
リリース時間 : 3/21/2025

モデル概要

このモデルはNVIDIAがリリースしたLlama-3シリーズのバリアントで、メモリ効率を最適化し、様々な量子化フォーマットをサポートし、異なるハードウェア環境でのテキスト生成タスクに適しています

モデル特徴

IQ-DynamicGate量子化技術
精度適応型量子化手法を採用し、1-2ビットの超低ビット量子化でも高い精度を維持
階層型量子化戦略
異なる層に異なる量子化精度を適用し、重要なコンポーネントにはより高い精度を使用
マルチフォーマットサポート
BF16、F16および様々な量子化フォーマットを提供し、異なるハードウェア環境に対応
メモリ効率最適化
メモリ制約のあるCPUやエッジデバイスでの展開に特に適しています

モデル能力

テキスト生成
低メモリ推論
CPU最適化
エッジデバイス展開

使用事例

リソース制約環境
エッジデバイスでのテキスト生成
メモリが限られたエッジデバイスで生成AIアプリケーションを実行
IQ1_M量子化バージョンでパープレキシティ43.9%低減
CPU推論最適化
GPUのないサーバーで大規模言語モデルを効率的に実行
Q4_Kバージョンではわずか2.5Gメモリで動作
研究分野
超低ビット量子化研究
1-2ビット量子化がモデル性能に与える影響を研究
IQ2_S量子化でパープレキシティ36.9%低減
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase