モデル概要

これは29億パラメータのRWKV-7モデルで、flash-linear attentionアーキテクチャを採用し、英語、中国語、日本語、韓国語、フランス語、アラビア語、スペイン語、ポルトガル語を含む複数言語をサポートします。

モデル特徴

多言語サポート

英語、中国語などの主要言語を含む8言語のテキスト生成をサポートします。

効率的なアーキテクチャ

flash-linear attentionアーキテクチャを採用し、計算効率を向上させます。

多様な量子化オプション

BF16から極低ビット量子化まで、様々なハードウェアニーズに対応したモデルフォーマットを提供します。

多言語テキスト生成

対話システム

コンテンツ作成

対話システム

多言語チャットボット

複数言語をサポートするインテリジェントな対話システムを構築

コンテンツ作成

多言語コンテンツ生成

多言語のマーケティングコピーや記事を自動生成

license: apache-2.0 language:

適切なモデルフォーマットを選択するには、ハードウェアの性能とメモリ制約を考慮する必要があります。

📌 BF16を使用する場合:
✔ ハードウェアがBF16をネイティブサポート（例: 新しいGPU、TPU）。
✔ 高い精度を維持しつつメモリを節約したい。
✔ モデルを他のフォーマットに再量子化する予定がある。

📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし、遅くなる可能性あり）。
❌ BF16最適化がない古いデバイスとの互換性が必要。

📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているが、BF16はサポートしていない。
✔ 速度、メモリ使用量、精度のバランスが必要。
✔ GPUなどFP16計算に最適化されたデバイスで実行する。

📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠く（予想より遅くなる可能性あり）。
❌ メモリ制約が厳しい。

量子化によりモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。

📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要。
✔ デバイスのVRAMが少なく、フル精度モデルをロードできない。
✔ メモリフットプリントを削減しつつ、合理的な精度を維持したい。

📌 量子化モデルを避ける場合:
❌ 最大精度が必要（フル精度モデルが適している）。
❌ ハードウェアに高精度フォーマット（BF16/F16）用の十分なVRAMがある。

これらのモデルは極端なメモリ効率を最適化しており、低電力デバイスやメモリが重大な制約となる大規模展開に最適。

IQ3_XS: 超低ビット量子化（3ビット）で極端なメモリ効率。
- 使用例: 超低メモリデバイス向け（Q4_Kでも大きすぎる場合）。
- トレードオフ: 高ビット量子化より精度が低い。
IQ3_S: 小ブロックサイズで最大メモリ効率。
- 使用例: IQ3_XSが過剰な低メモリデバイス向け。
IQ3_M: 中ブロックサイズでIQ3_Sより精度向上。
- 使用例: IQ3_Sが制限すぎる低メモリデバイス向け。
Q4_K: 4ビット量子化でブロック単位最適化により精度向上。
- 使用例: Q6_Kが大きすぎる低メモリデバイス向け。
Q4_0: 純粋な4ビット量子化、ARMデバイス向けに最適化。
- 使用例: ARMベースデバイスや低メモリ環境向け。

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用不可なGPU推論
Q4_K	中～低	低	CPU または低VRAMデバイス	メモリ制約が厳しい環境
Q6_K	中	中	メモリ豊富なCPU	量子化されつつ精度向上
Q8_0	高	中	VRAMが十分なCPU/GPU	量子化モデル中最も高精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARM または低メモリデバイス	llama.cppがARMデバイス向けに最適化