RekaAI_reka - flash - 3.1 - GGUFオープンソースモデル - リソースを節約し、制限されたデバイスでの実行に適しています

ホーム

Rekaai Reka Flash 3.1 GGUF

bartowskiによって開発

これはRekaAIのreka-flash-3.1モデルのLlamacpp imatrix量子化バージョンで、量子化技術を通じてモデルのストレージ容量と計算リソースの要件を削減し、リソースが制限されたデバイスでの実行に適しています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #高効率量子化 #多ハードウェア適合 #低リソースデプロイ

ダウンロード数 1,449

リリース時間 : 7/10/2025

モデル概要

このプロジェクトはRekaAI reka-flash-3.1モデルの複数の量子化バージョンを提供し、モデルの性能を維持しながらリソース消費を削減し、様々なハードウェアでのデプロイと使用を容易にします。

モデル特徴

複数の量子化タイプ

複数の量子化オプション（bf16、Q8_0、Q6_K_Lなど）を提供し、異なる性能と品質のバランス要件を満たします。

オンライン再パッケージ化

オンライン再パッケージ化技術をサポートし、ハードウェアの状況に応じて自動的に重みを最適化し、モデルの実行効率を向上させます。

詳細な選択ガイド

詳細な量子化ファイルの選択ガイドを提供し、ユーザーがハードウェアリソースに基づいて最適な量子化バージョンを選択できるように支援します。

モデル能力

テキスト生成

多言語対応

高効率推論

使用事例

リソース制限デバイスのデプロイ

エッジデバイスでの実行

ストレージと計算リソースが限られたエッジデバイスで大規模言語モデルを高効率で実行します。

リソース消費を大幅に削減し、高いモデル性能を維持します。

研究と開発

モデル量子化研究

異なる量子化技術がモデル性能に与える影響を研究および比較するために使用します。

複数の量子化バージョンを提供し、比較分析を容易にします。

🚀 RekaAIによるreka-flash-3.1のLlamacpp imatrix量子化

このプロジェクトは、RekaAIによるreka-flash-3.1モデルの量子化バージョンを提供します。量子化には、llama.cppのリリース b5856 を使用しています。

🚀 クイックスタート

モデルの概要

量子化担当者: bartowski
パイプラインタグ: text-generation
ベースモデル: RekaAI/reka-flash-3.1
ベースモデルの関係: 量子化済み
ライセンス: apache-2.0

モデルの実行方法

LM Studioでの実行: LM Studio を使用して、量子化されたモデルを実行できます。
llama.cppでの直接実行: llama.cpp または他のllama.cppベースのプロジェクトを使用して、モデルを直接実行することもできます。

プロンプトフォーマット

human: {system_prompt} {prompt} <sep> assistant:

✨ 主な機能

多様な量子化タイプ: 様々な量子化タイプ（bf16、Q8_0、Q6_K_Lなど）が提供されており、ユーザーのハードウェア環境や性能要件に合わせて選択できます。
オンラインリパッキング機能: Q4_0などの一部の量子化モデルでは、オンラインリパッキング機能がサポートされており、ARMやAVXマシンでの性能を向上させることができます。

📦 インストール

モデルのダウンロード

以下の表から、必要なファイルを選択してダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
reka-flash-3.1-bf16.gguf	bf16	41.82GB	false	完全なBF16ウェイト。
reka-flash-3.1-Q8_0.gguf	Q8_0	22.22GB	false	非常に高品質で、一般的には必要ないが、利用可能な最大の量子化。
reka-flash-3.1-Q6_K_L.gguf	Q6_K_L	18.74GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。
reka-flash-3.1-Q6_K.gguf	Q6_K	18.44GB	false	非常に高品質で、ほぼ完璧で、推奨。
reka-flash-3.1-Q5_K_L.gguf	Q5_K_L	16.02GB	false	埋め込みと出力ウェイトにQ8_0を使用。高品質で、推奨。
reka-flash-3.1-Q5_K_M.gguf	Q5_K_M	15.64GB	false	高品質で、推奨。
reka-flash-3.1-Q5_K_S.gguf	Q5_K_S	14.79GB	false	高品質で、推奨。
reka-flash-3.1-Q4_K_L.gguf	Q4_K_L	14.07GB	false	埋め込みと出力ウェイトにQ8_0を使用。良い品質で、推奨。
reka-flash-3.1-Q4_K_M.gguf	Q4_K_M	13.61GB	false	良い品質で、ほとんどの使用ケースでのデフォルトサイズ、推奨。
reka-flash-3.1-Q4_1.gguf	Q4_1	13.19GB	false	レガシーフォーマット、Q4_K_Sと同様のパフォーマンスが得られるが、Apple Siliconでのトークン/ワットが向上。
reka-flash-3.1-Q4_K_S.gguf	Q4_K_S	12.63GB	false	品質がやや低いが、より多くのスペースを節約でき、推奨。
reka-flash-3.1-Q4_0.gguf	Q4_0	11.96GB	false	レガシーフォーマット、ARMおよびAVX CPU推論用のオンラインリパッキングを提供。
reka-flash-3.1-IQ4_NL.gguf	IQ4_NL	11.95GB	false	IQ4_XSに似ているが、やや大きい。ARM CPU推論用のオンラインリパッキングを提供。
reka-flash-3.1-Q3_K_XL.gguf	Q3_K_XL	11.95GB	false	埋め込みと出力ウェイトにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適している。
reka-flash-3.1-IQ4_XS.gguf	IQ4_XS	11.49GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスが得られ、推奨。
reka-flash-3.1-Q3_K_L.gguf	Q3_K_L	11.41GB	false	品質は低いが使用可能で、低RAM環境に適している。
reka-flash-3.1-Q3_K_M.gguf	Q3_K_M	10.86GB	false	低品質。
reka-flash-3.1-IQ3_M.gguf	IQ3_M	10.26GB	false	中程度の低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
reka-flash-3.1-Q3_K_S.gguf	Q3_K_S	9.93GB	false	低品質で、推奨しない。
reka-flash-3.1-IQ3_XS.gguf	IQ3_XS	9.50GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりもやや良い。
reka-flash-3.1-Q2_K_L.gguf	Q2_K_L	9.23GB	false	埋め込みと出力ウェイトにQ8_0を使用。非常に低品質ですが、意外と使用可能です。
reka-flash-3.1-IQ3_XXS.gguf	IQ3_XXS	9.18GB	false	品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3量子化と同等。
reka-flash-3.1-Q2_K.gguf	Q2_K	8.63GB	false	非常に低品質ですが、意外と使用可能です。
reka-flash-3.1-IQ2_M.gguf	IQ2_M	8.51GB	false	比較的低品質ですが、SOTA技術を使用して意外と使用可能です。
reka-flash-3.1-IQ2_S.gguf	IQ2_S	8.12GB	false	低品質ですが、SOTA技術を使用して使用可能です。

huggingface-cliを使用したダウンロード

まず、huggingface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/RekaAI_reka-flash-3.1-GGUF --include "RekaAI_reka-flash-3.1-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（RekaAI_reka-flash-3.1-Q8_0）を指定するか、すべてを現在のディレクトリ（./）にダウンロードすることができます。

🔧 技術詳細

埋め込み/出力ウェイト

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法であり、埋め込みと出力ウェイトが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらのウェイトはメモリ内でインターリーブされ、ARMおよびAVXマシンでのパフォーマンスを向上させるために一度により多くのデータをロードしていました。

しかし、現在では、ウェイトの「オンラインリパッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアがウェイトのリパッキングによって恩恵を受ける場合、自動的にオンザフライで実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

さらに、このPR により、ARM用のウェイトをリパッキングするIQ4_NLを使用することで、少し良い品質を得ることができます。ただし、現在は4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。

📚 ドキュメント

どのファイルを選べばいいですか？

まず、実行できるモデルのサイズを決定する必要があります。これには、持っているRAMおよび/またはVRAMの量を把握する必要があります。

モデルをできるだけ高速に実行したい場合は、全体をGPUのVRAMに収めることを目指します。GPUの総VRAMよりも1-2GB小さいファイルサイズの量子化を選択します。

絶対的な最高品質を求める場合は、システムRAMとGPUのVRAMを合計し、同様にその合計よりも1-2GB小さいファイルサイズの量子化を選択します。

次に、「I-量子化」または「K-量子化」を使用するかを決定する必要があります。

あまり考えたくない場合は、K-量子化のいずれかを選択します。これらは 'QX_K_X' 形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。

llama.cpp機能マトリックス

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-量子化を検討する必要があります。これらはIQX_X形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-量子化はCPUでも使用できますが、同等のK-量子化よりも遅くなるため、速度とパフォーマンスのトレードオフを決定する必要があります。

📄 ライセンス

このプロジェクトは、apache-2.0ライセンスの下で提供されています。

クレジット

kalomazeとDampfには、imatrixキャリブレーションデータセットの作成における支援に感謝します。
ZeroWwには、埋め込み/出力の実験のインスピレーションを提供してくれたことに感謝します。
LM Studioには、この作業を支援してくれたことに感謝します。

この作業をサポートしたい場合は、こちらのko-fiページを訪問してください。: https://ko-fi.com/bartowski

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご