🚀 ICONNAIのICONN - 1のLlamacpp imatrix量子化モデル
このプロジェクトでは、ICONNAIのICONN - 1モデルのLlamacpp imatrix量子化バージョンを提供しています。これらの量子化モデルは、さまざまなシナリオで異なる性能と品質を発揮し、ユーザーは自身のニーズに応じて選択することができます。
🚀 クイックスタート
アクセス要求の説明
このモデルには多くの否定的なフィードバックがあるため、ユーザーが知らないうちにダウンロードするのを防ぐために、モデルにアクセス権限を設定しています。アクセスリンク:関連する議論。アクセス情報を送信すると自動的に承認されます。これは単なる「了解しました」という追加の手順であり、送信された情報は閲覧されません。
モデル量子化情報
実行方法
✨ 主な機能
プロンプト形式
チャットテンプレートは指定されておらず、デフォルトの形式を使用しています。エラーが発生する可能性があります。詳細は元のモデルカードを参照してください。
<s>[SYSTEM_PROMPT]{system_prompt}[/SYSTEM_PROMPT][INST]{prompt}[/INST]
モデルファイルのダウンロード
以下のリンクから単一のファイル(ブランチ全体ではなく)をダウンロードできます。
埋め込み/出力の重み
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法を使用して、埋め込みと出力の重みをデフォルト値ではなくQ8_0に量子化しています。
ダウンロード方法
huggingface - cliを使用したダウンロード
まず、huggingface - cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードする特定のファイルを指定できます。
huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されます。これらをすべてローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/ICONNAI_ICONN-1-GGUF --include "ICONNAI_ICONN-1-Q8_0/*" --local-dir ./
新しいローカルディレクトリ(ICONNAI_ICONN - 1 - Q8_0)を指定するか、すべてを現在の位置(./)にダウンロードできます。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードしていました。これらのモデルの重みはメモリ内で交差配置されており、ARMおよびAVXマシンの性能を向上させるために、一度により多くのデータをロードします。
現在は、いわゆる重みの「オンライン再パック」機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パックから恩恵を受ける場合、自動的にリアルタイムで実行されます。
llama.cppのビルド b4282 以降では、Q4_0_X_Xファイルを実行できなくなり、Q4_0を使用する必要があります。
さらに、このPR により、少し良い品質を得たい場合はIQ4_NLを使用できます。これもARM用に重みを再パックしますが、現在は4_4のみサポートされています。ロード時間は長くなる可能性がありますが、全体的な速度は向上します。
ファイルの選択方法
Artefact2による詳細な分析 と以下の手順を参考にして、適切なファイルを選択できます。
- 実行可能なモデルサイズを決定する:利用可能なシステムRAMとGPUのVRAMのサイズを確認する必要があります。
- モデルをできるだけ高速に実行したい場合は、モデル全体がGPUのVRAMに収まるようにする必要があります。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
- 絶対的な最高品質を追求する場合は、システムRAMとGPUのVRAMを合計し、その合計より1 - 2GB小さいファイルサイズの量子化モデルを選択してください。
- 'I - quant'または'K - quant'を選択する:
- あまり考えずに選択する場合は、K - quantを選択してください。形式は'QX_K_X'で、例えばQ5_K_Mです。
- 詳細を知りたい場合は、[llama.cppの機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix) を参照してください。一般的に、Q4以下を目標とし、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用する場合は、I - quantを選択する必要があります。形式はIQX_Xで、例えばIQ3_Mです。I - quantは新しく、同じサイズでは性能が良いですが、CPUでの実行はK - quantより遅いため、速度と性能のトレードオフを考慮する必要があります。
🔧 技術詳細
炭素排出量情報
属性 |
詳細 |
二酸化炭素排出量 |
1.34 |
データソース |
CodeCarbon |
トレーニングタイプ |
事前学習 |
地理位置 |
米国西部 |
使用ハードウェア |
9 x B200 |
追加の注意事項
⚠️ 重要な注意事項
いくつかの問題が報告されています。帯域幅を無駄にする前に、関連する議論を読んでください:問題の議論
📄 ライセンス
ライセンスの種類:other
ライセンスのリンク:LICENSE
ベースモデル:ICONNAI/ICONN - 1
ベースモデルとの関係:量子化バージョン
謝辞
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験を啓発してくれたZeroWwに感謝します。
このプロジェクトを支援してくれたLM Studioに感謝します。
作者の活動を支援したい場合は、ko - fiページ を訪問してください。