Llama 3.1 Nemotron Nano 8B V1 GGUF
L
Llama 3.1 Nemotron Nano 8B V1 GGUF
Mungertによって開発
Llama-3アーキテクチャに基づく8Bパラメータモデルで、IQ-DynamicGate超低ビット量子化技術によりメモリ使用を最適化
ダウンロード数 2,088
リリース時間 : 3/21/2025
モデル概要
このモデルはNVIDIAがリリースしたLlama-3シリーズのバリアントで、メモリ効率を最適化し、様々な量子化フォーマットをサポートし、異なるハードウェア環境でのテキスト生成タスクに適しています
モデル特徴
IQ-DynamicGate量子化技術
精度適応型量子化手法を採用し、1-2ビットの超低ビット量子化でも高い精度を維持
階層型量子化戦略
異なる層に異なる量子化精度を適用し、重要なコンポーネントにはより高い精度を使用
マルチフォーマットサポート
BF16、F16および様々な量子化フォーマットを提供し、異なるハードウェア環境に対応
メモリ効率最適化
メモリ制約のあるCPUやエッジデバイスでの展開に特に適しています
モデル能力
テキスト生成
低メモリ推論
CPU最適化
エッジデバイス展開
使用事例
リソース制約環境
エッジデバイスでのテキスト生成
メモリが限られたエッジデバイスで生成AIアプリケーションを実行
IQ1_M量子化バージョンでパープレキシティ43.9%低減
CPU推論最適化
GPUのないサーバーで大規模言語モデルを効率的に実行
Q4_Kバージョンではわずか2.5Gメモリで動作
研究分野
超低ビット量子化研究
1-2ビット量子化がモデル性能に与える影響を研究
IQ2_S量子化でパープレキシティ36.9%低減
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98