license: apache-2.0
thumbnail: https://cdn-uploads.huggingface.co/production/uploads/6625f4a8a8d1362ebcc3851a/hIZ2ZcaDyfYLT9Yd4pfOs.jpeg
language:
- en
base_model:
- ArliAI/QwQ-32B-ArliAI-RpR-v4
library_name: transformers
pipeline_tag: text-generation
QwQ-32B-ArliAI-RpR-v4
画像はArli AI Image Generationで生成 https://www.arliai.com/image-generation
RpR v4の変更点:
ArliAI史上最高のRP/クリエイティブモデルが再び登場。
RpRシリーズ概要: RPMaxを基盤とした推論機能の構築
RpR(RolePlay with Reasoning)はArliAIの新シリーズ。このシリーズはRPMaxシリーズで開発されたデータセット選定方法論と学習手法を直接継承しています。
RpRモデルはRPMaxで使用された精選・重複排除済みRP/クリエイティブライティングデータセットを活用し、多様性に重点を置くことで高い創造性を確保し、文脈横断的な繰り返しを最小化。RPMaxユーザーは、他のRP用ファインチューン済みモデルとは異なる独自の非反復的ライティングスタイルを認識するでしょう。
高性能オープンソース推論モデルQwQの登場により、利用可能な指示・クリエイティブライティング推論データセットが各例につき1応答しか含まないことが明らかになりました。この種の単一応答データセットは、長文マルチターンチャットで出力品質の劣化を引き起こします。そのためArli AIは、長文マルチターンチャット可能な真のRP推論モデルを作成することを決定しました。
RpR作成にはまず、既存の高品質RPMaxデータセットを推論データセットに再処理する必要がありました。ベースQwQ Instructモデル自体を使用してRPMaxデータセット会話例の各ターンに対する推論プロセスを生成し、データセットの実際の応答例と推論が整合するようさらに精緻化しました。
もう1つの重要な点は、推論ブロックを推論時と同様の方法で提示する例でモデルを訓練することです。つまり、コンテキスト内で推論ブロックを見ないようにすること。これを実現するため、axolotlを使用し手動テンプレートフリーセグメントデータセットで学習を実施し、モデルがコンテキスト内で推論ブロックを見るよう訓練されないようにしました。これは推論時の使用方法と完全に一致しています。
このデータセットと方法でQwQを訓練した結果、長文マルチターンRPチャットでも一貫して首尾一貫した興味深い出力が得られます。私たちの知る限り、これはRPとクリエイティブライティング向けに正しく訓練された最初の真の推論モデルです。
モデルは https://arliai.com でアクセス可能で、モデルランキングページも https://www.arliai.com/models-ranking に用意しています。
新しいDiscordサーバー https://discord.com/invite/t75KbPgwhk またはサブレディット https://www.reddit.com/r/ArliAI/ で質問してください。
モデル説明
QwQ-32B-ArliAI-RpR-v4はRpRシリーズ第3弾。32Bパラメータモデルで、RPMaxデータセットを基にしたRpRデータセットを使用し、長文マルチターンチャットでの推論能力を維持する技術でファインチューンされています。
推奨サンプラー
- RpRモデルは反復ペナルティ型サンプラー(XTCやDRYなどの高度なもの含む)との相性が良くありません。
- 単純なサンプラー設定と長時間の推論(高い最大トークン数)が最適です。
- このリポジトリのファイルセクションにアップロードされたSTマスターエクスポートもダウンロード可能です。
最初に以下の設定から始めることを推奨:
- 温度: 1.0
- MinP: 0.02
- TopK: 40
- 応答トークン: 2048+
仕様
- ベースモデル: QwQ-32B
- 最大コンテキスト長: Yarn使用時最大128K(ベースQwQと同様にネイティブ32K)
- パラメータ: 32B
- 推論モデル: はい
学習詳細
- シーケンス長: 16384
- エポック: 1エポック学習(RPMax手法から継承)
- ファインチューン方法: RS-QLORA+(Rank-Stabilized LoRA + LoRA Plus 8x)
- ランク/アルファ: 128-rank 128-alpha
- 学習率: 0.00001
- スケジューラー: Rex
- 勾配累積: 32
素晴らしい学習グラフ :)
量子化
- BF16: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4
- GGUF: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4-GGUF
STで推論モデルを正しく使用する方法
一般的な推論モデルでは以下を確認する必要があります:
注: 推論モデルは「名前を含める」が「never」の場合のみ正常動作します。ユーザーターンのeosトークン直後に<think>トークンが続き、応答前に推論を開始することを期待するためです。「名前を含める」を有効にすると「セラフィナ:<eos_token>」のように常にキャラクター名が追加され、応答と推論の優先順位が混乱します。
その他のサンプラーパラメータは通常通り自由に設定可能。
思考ブロック内に推論が見られない場合、設定がこの例に従っていないか、STバージョンが古く推論ブロック自動解析機能がない可能性があります。
応答全体が推論ブロック内にある場合、<think>と</think>推論トークンの接頭辞/接尾辞に余分なスペースや改行があるか、モデルがこれらのトークン間に推論を配置するほど賢い推論モデルでない可能性があります。
すべて正しく設定すると以下のようになります:
詳細: RPMax基盤(データセットと学習哲学)
以下のセクションは、RpRシリーズの基盤となったRPMaxのデータセットと学習方法論の核心哲学を詳述します。
目標: 反復の減少と創造性の向上
RPMaxとRpRで使用されるデータセット選定の目標は、反復を減らし、様々な状況で創造的に記述するモデルの能力を高めることです。つまり、異なる状況に対して非常に異なる応答を出力し、予測可能な決まり文句に陥らないモデルを作成することです。
反復と創造性とは?
まず、創造性とはモデルが生成可能な出力の多様性を意味すべきです。創造的ライティングを散文的な記述と混同すべきではありません。モデルが小説家のような快い文体で記述する能力は、創造的ライティングではありません。これは単に特定の快い散文スタイルを持つモデルです。したがって、美しく記述するモデルが必ずしも創造的モデルとは限りません。
反復と創造性は本質的に絡み合っており、反復的なモデルは新しい内容を記述できず以前の類似応答しか繰り返せないため、非創造的とも言えます。反復には実際には2つの異なる形態があります。
コンテキスト内反復: モデルが反復的と指摘される場合、通常は単一会話内で同じフレーズを繰り返す傾向を指します。例えば、キャラクターが「髪を払いのけ...」と言い、その後そのキャラクターの他の動作全てに「髪を払いのけ...」を前置するなど。
モデルが退屈と言えますが、実際の人間の記述でも、この種の反復が意図的で、微妙に要点を証明したりキャラクター特性を示す場合があります。したがって、この種の反復が常に悪いわけではなく、これを完全に阻止しても必ずしもモデルの記述能力が向上するわけではありません。
この点に関し、RPMaxとRpRはまだこの種の反復を排除することに焦点を当てておらず、出力にコンテキスト内反復が見られる可能性があります。これを排除することがRPMaxとRpRシリーズの次の大きなステップとなります。
文脈横断的反復: より悪質な反復は、モデルが非常に異なる状況で同じフレーズや決まり文句を繰り返す傾向です。例えば、「背筋が凍る」というフレーズを、そのフレーズに必ずしも適合しない全く異なる会話で繰り返すモデルなど。
この種の反復は常に悪く、モデルが訓練データセットで頻繁に見た「創造的ライティング」スタイルに過剰適合している兆候です。文脈横断的反復傾向は、モデルが物語を記述する際に類似した反復的な名前を選択する傾向(有名な「エララ」や「ささやきの森」など)にも通常現れます。
RPMaxとRpRのデータセット選定の主目的は、文脈横断的反復を減らすことで高度に創造的なモデルを作成することです。これは異なる会話にわたって続く反復タイプであり、データセットが異なる例エントリで同じ状況やキャラクターの繰り返しを含まないようにすることで対処します。
データセット選定
このデータセット(RPMaxおよび現在のRpR含む)で訓練されたモデルの成功は、訓練方法とファインチューニング用に作成された独自データセットによるものです。可能な限り多くのオープンソースクリエイティブライティングおよびRPデータセット(全てHugging Faceから)を含み、純粋に合成生成されたデータセットを除去しました。これらはモデルを鈍化させGPT的表現(slop)を学習させる傾向があるためです。
次にLlama 3.1 8B(または同程度の能力を持つモデル)を使用し、これらのデータセットに描かれたキャラクターと状況のデータベースを作成。これを使用してデータセットの重複を排除し、各キャラクターや状況のエントリが単一であることを保証しました。
ファインチューンの黄金律
初期事前学習段階ではデータが多いほど良い結果が得られる傾向がありますが、ファインチューンにおける黄金律は量ではなく質です。そのため、ここで使用されるデータセットは、キャラクターや状況が繰り返される場合と比べて桁違いに小規模ですが、結果は単なる別のクリエイティブライティング/RPモデルの「近親交配」ではないモデルとなります。
学習パラメータと非従来的手法
通常の方法は、低学習率と高勾配累積で損失安定性を高め、損失が許容範囲になるまで複数エポック学習を実行します。
しかしRPMaxとRpRの方法論では、単一エポックのみ、低勾配累積、通常より高い学習率を使用します。学習中の損失曲線は実際不安定で大きく変動しますが、平滑化すると時間とともに着実に減少します。理論的には、これによりモデルがデータセットの各例からより多く学習でき、複数エポックで同じ例を2度見せないことで、単一キャラクターや物語の決まり文句に固着・強化するのを防ぎます。
学習中の損失変動は、モデルがデータセットの新規エントリを学習する際、類似例を以前見たことがないため、例エントリと類似した回答を予測できないためです。1.0または少し高い最終損失は実際許容範囲です。なぜなら、使用データセットと全く同じように出力するモデルを作成することが目的ではなく、独自の応答スタイルを作り出せるほど創造的なモデルを作成することが目的だからです。
これは、企業の内部知識ベースでモデルを訓練する場合など、特定ドメインで訓練しモデルにデータセット例のように確実に出力させる必要がある場合とは異なります。
お試しください!
モデルの好みは主観的ですので、ぜひQwQ-32B-ArliAI-RpR-v4をお試しください。良い悪いを問わず、皆様のフィードバックは常に貴重で、今後のRPMaxおよびRpRモデルの改善に役立ちます。