ICONNAI_ICONN-1-GGUFオープンソースモデル - 複数の量子化オプションでさまざまな性能と品質要件を満たします

ホーム

ICONNAI ICONN 1 GGUF

bartowskiによって開発

ICONN-1の量化バージョンで、さまざまな性能と品質の要件に対応するための複数の量化オプションを提供します。

大規模言語モデルオープンソースライセンス:その他 #多量化バージョン #高性能推論 #大規模モデル最適化

ダウンロード数 609

リリース時間 : 6/19/2025

モデル概要

このプロジェクトは、ICONNAIのICONN-1モデルのLlamacpp imatrix量化バージョンを提供し、Q2からQ8までの複数の量化オプションが含まれ、さまざまなハードウェア構成と使用シナリオに適しています。

モデル特徴

多様な量化オプション

Q2からQ8までの20種類以上の量化バージョンを提供し、さまざまなハードウェア構成と性能要件を満たします。

imatrix量化技術

llama.cppのimatrixオプションを使用して量化を行い、モデルの性能を最適化します。

ハードウェア適合最適化

ARMとAVX CPUのオンライン重み再パッケージングをサポートし、特定のハードウェアでの実行効率を向上させます。

高品質推奨オプション

Q6_K_L、Q5_K_Mなどの複数の高品質量化バージョンを推奨選択肢として提供します。

モデル能力

テキスト生成

対話システム

命令理解

使用事例

ローカルデプロイ

LM Studioでの実行

LM Studioで直接量化モデルを実行できます。

llama.cppとの統合

llama.cppに基づく任意のプロジェクトと統合して使用できます。

研究アプリケーション

量化技術の研究

さまざまな量化方法がモデルの性能に与える影響を研究するために使用できます。

🚀 ICONNAIのICONN - 1のLlamacpp imatrix量子化モデル

このプロジェクトでは、ICONNAIのICONN - 1モデルのLlamacpp imatrix量子化バージョンを提供しています。これらの量子化モデルは、さまざまなシナリオで異なる性能と品質を発揮し、ユーザーは自身のニーズに応じて選択することができます。

🚀 クイックスタート

アクセス要求の説明

このモデルには多くの否定的なフィードバックがあるため、ユーザーが知らないうちにダウンロードするのを防ぐために、モデルにアクセス権限を設定しています。アクセスリンク：関連する議論。アクセス情報を送信すると自動的に承認されます。これは単なる「了解しました」という追加の手順であり、送信された情報は閲覧されません。

モデル量子化情報

量子化ツール：llama.cpp バージョン b5697 を使用して量子化します。
元のモデル：ICONN - 1
量子化データセット：すべての量子化にimatrixオプションを使用し、データセットはここから取得します。

実行方法

LM Studio：LM Studio で実行できます。
llama.cpp：llama.cpp またはllama.cppをベースとした任意のプロジェクトで直接実行できます。

✨ 主な機能

プロンプト形式

チャットテンプレートは指定されておらず、デフォルトの形式を使用しています。エラーが発生する可能性があります。詳細は元のモデルカードを参照してください。

<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]

モデルファイルのダウンロード

以下のリンクから単一のファイル（ブランチ全体ではなく）をダウンロードできます。

ファイル名	量子化タイプ	ファイルサイズ	分割有無	説明
ICONN - 1 - Q8_0.gguf	Q8_0	89.23GB	true	非常に高い品質で、通常は必要ありませんが、利用可能な最大の量子化です。
ICONN - 1 - Q6_K_L.gguf	Q6_K_L	69.22GB	true	埋め込みと出力の重みにQ8_0を使用します。非常に高い品質で、ほぼ完璧です。推奨
ICONN - 1 - Q6_K.gguf	Q6_K	68.89GB	true	非常に高い品質で、ほぼ完璧です。推奨
ICONN - 1 - Q5_K_L.gguf	Q5_K_L	60.04GB	true	埋め込みと出力の重みにQ8_0を使用します。高品質です。推奨
ICONN - 1 - Q5_K_M.gguf	Q5_K_M	59.63GB	true	高品質です。推奨
ICONN - 1 - Q5_K_S.gguf	Q5_K_S	57.83GB	true	高品質です。推奨
ICONN - 1 - Q4_1.gguf	Q4_1	52.63GB	true	古い形式で、Q4_K_Sと同様の性能を持ちますが、Appleシリコンチップでは1ワットあたりのトークン数が向上しています。
ICONN - 1 - Q4_K_L.gguf	Q4_K_L	51.40GB	true	埋め込みと出力の重みにQ8_0を使用します。品質は良好です。推奨
ICONN - 1 - Q4_K_M.gguf	Q4_K_M	50.91GB	true	品質は良好で、ほとんどのユースケースでのデフォルトサイズです。推奨
ICONN - 1 - Q4_K_S.gguf	Q4_K_S	47.84GB	false	品質はやや低いですが、省スペースです。推奨
ICONN - 1 - Q4_0.gguf	Q4_0	47.63GB	false	古い形式で、ARMおよびAVX CPUの推論にオンラインで再パックできます。
ICONN - 1 - IQ4_NL.gguf	IQ4_NL	47.45GB	false	IQ4_XSと似ていますが、やや大きいです。ARM CPUの推論にオンラインで再パックできます。
ICONN - 1 - IQ4_XS.gguf	IQ4_XS	44.85GB	false	品質はまあまあで、Q4_K_Sより小さく、性能は似ています。推奨
ICONN - 1 - Q3_K_XL.gguf	Q3_K_XL	44.13GB	false	埋め込みと出力の重みにQ8_0を使用します。品質は低いですが、使用可能で、低メモリの場合に適しています。
ICONN - 1 - Q3_K_L.gguf	Q3_K_L	43.55GB	false	品質は低いですが、使用可能で、低メモリの場合に適しています。
ICONN - 1 - Q3_K_M.gguf	Q3_K_M	40.23GB	false	低品質です。
ICONN - 1 - IQ3_M.gguf	IQ3_M	36.94GB	false	中低品質で、新しい方法で、Q3_K_Mと同等の性能を持ちます。
ICONN - 1 - Q3_K_S.gguf	Q3_K_S	36.36GB	false	低品質で、推奨しません。
ICONN - 1 - IQ3_XS.gguf	IQ3_XS	34.45GB	false	品質は低いですが、新しい方法で、性能はまあまあで、Q3_K_Sよりやや優れています。
ICONN - 1 - IQ3_XXS.gguf	IQ3_XXS	32.40GB	false	品質は低いですが、新しい方法で、性能はまあまあで、Q3量子化と同等です。
ICONN - 1 - Q2_K_L.gguf	Q2_K_L	31.41GB	false	埋め込みと出力の重みにQ8_0を使用します。品質は非常に低いですが、意外と使用可能です。
ICONN - 1 - Q2_K.gguf	Q2_K	30.76GB	false	品質は非常に低いですが、意外と使用可能です。
ICONN - 1 - IQ2_M.gguf	IQ2_M	27.74GB	false	比較的低品質で、最先端の技術を使用していますが、意外と使用可能です。
ICONN - 1 - IQ2_S.gguf	IQ2_S	25.29GB	false	低品質で、最先端の技術を使用していますが、使用可能です。
ICONN - 1 - IQ2_XS.gguf	IQ2_XS	24.77GB	false	低品質で、最先端の技術を使用していますが、使用可能です。
ICONN - 1 - IQ2_XXS.gguf	IQ2_XXS	22.30GB	false	品質は非常に低いですが、最先端の技術を使用していますが、使用可能です。

埋め込み/出力の重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法を使用して、埋め込みと出力の重みをデフォルト値ではなくQ8_0に量子化しています。

ダウンロード方法

huggingface - cliを使用したダウンロード

まず、huggingface - cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードする特定のファイルを指定できます。

huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合、複数のファイルに分割されます。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。

huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q8_0/*" --local-dir ./

新しいローカルディレクトリ（ICONNAI_ICONN - 1 - Q8_0）を指定するか、すべてを現在の位置（./）にダウンロードできます。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードしていました。これらのモデルの重みはメモリ内で交差配置されており、ARMおよびAVXマシンの性能を向上させるために、一度により多くのデータをロードします。

現在は、いわゆる重みの「オンライン再パック」機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パックから恩恵を受ける場合、自動的にリアルタイムで実行されます。

llama.cppのビルド b4282 以降では、Q4_0_X_Xファイルを実行できなくなり、Q4_0を使用する必要があります。

さらに、このPR により、少し良い品質を得たい場合はIQ4_NLを使用できます。これもARM用に重みを再パックしますが、現在は4_4のみサポートされています。ロード時間は長くなる可能性がありますが、全体的な速度は向上します。

ファイルの選択方法

Artefact2による詳細な分析と以下の手順を参考にして、適切なファイルを選択できます。

実行可能なモデルサイズを決定する：利用可能なシステムRAMとGPUのVRAMのサイズを確認する必要があります。
- モデルをできるだけ高速に実行したい場合は、モデル全体がGPUのVRAMに収まるようにする必要があります。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
- 絶対的な最高品質を追求する場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
'I - quant'または'K - quant'を選択する：
- あまり考えずに選択する場合は、K - quantを選択してください。形式は'QX_K_X'で、例えばQ5_K_Mです。
- 詳細を知りたい場合は、[llama.cppの機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix) を参照してください。一般的に、Q4以下を目標とし、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用する場合は、I - quantを選択する必要があります。形式はIQX_Xで、例えばIQ3_Mです。I - quantは新しく、同じサイズでは性能が良いですが、CPUでの実行はK - quantより遅いため、速度と性能のトレードオフを考慮する必要があります。

🔧 技術詳細

炭素排出量情報

属性	詳細
二酸化炭素排出量	1.34
データソース	CodeCarbon
トレーニングタイプ	事前学習
地理位置	米国西部
使用ハードウェア	9 x B200