license: apache-2.0
thumbnail: https://cdn-uploads.huggingface.co/production/uploads/6625f4a8a8d1362ebcc3851a/coilCTGeL0OUYr9PA9zna.jpeg
language:
- en
base_model:
- Qwen/QwQ-32B
library_name: transformers
pipeline_tag: text-generation
QwQ-32B-ArliAI-RpR-v3
画像はArli AI Image Generationで生成 https://www.arliai.com/image-generation
RpR v3の変更点:
-
ArliAI史上最高のモデル:
極めて創造的で型破りな思考。
-
QwQ-abliteratedをベースに使用しなくなりました:
v3はv2を再構築したものですが、QwQ-lorablatedベースから始めることによる問題はありません。これは明らかにモデルの能力を低下させ、より高いトレーニングと評価損失値からも確認できたため、良い選択ではなかったことが判明しました。
-
思考の乖離を修正:
RpRデータセット生成を完全に再実行し、生成された思考トークンがモデルの応答と常に一致するようにするために多くの努力が払われました。
-
ランダムな拒否を修正:
以前のRpR v1データセットはバニラQwQで生成されていたため、思考例と応答例の両方で拒否が発生していました。RpR v3ではデータセット生成にQwQ-abliteratedを使用することで、拒否が発生しないようにしました。
-
データセット内の無意味な単語を修正:
RPMax/RpRデータセットに使用されたオープンデータセットに検閲の試みと思われる単語/フレーズが多数見つかりました。これらの不適切な単語/フレーズを修正し、モデルがこの動作をコピーしないようにしました。
-
Rexスケジューラー:
v3は通常のコサインスケジューラーではなく、新しい改良版のRexスケジューラーを使用してトレーニングされています。このスケジューラーは学習率をより長く高い状態に保つため、データセットからより多くのニュアンスを学習できます。
RpRシリーズ概要: RPMaxに基づく推論機能の構築
RpR(RolePlay with Reasoning)はArliAIの新しいモデルシリーズです。このシリーズはRPMaxシリーズで開発された成功したデータセットキュレーション方法論とトレーニング手法を直接継承しています。
RpRモデルはRPMaxで使用されたキュレーションされ重複排除されたRPおよびクリエイティブライティングデータセットを使用しており、高い創造性を確保しコンテキスト間の繰り返しを最小化するために多様性に重点を置いています。RPMaxに慣れているユーザーは、他のRP用にファインチューニングされたモデルとは異なるユニークで繰り返しのない書き方に気付くでしょう。
高性能なオープンソース推論モデルとしてQwQがリリースされたことで、利用可能な指示およびクリエイティブライティング推論データセットには例ごとに1つの応答しか含まれていないことが明らかになりました。このような単一応答データセットで推論モデルをトレーニングすると、長いマルチターンチャットで出力品質が低下します。そのためArli AIは、長いマルチターンチャットが可能な真のRPモデルを作成することを決定しました。
RpRを作成するために、まず既存の既知の良好なRPMaxデータセットを再処理して推論データセットを作成する必要がありました。これはベースのQwQ Instructモデル自体を使用して、RPMaxデータセットの会話例の各ターンに対する推論プロセスを作成することで可能になりました。その後、推論がデータセットの実際の応答例と一致するようにさらに精緻化されました。
もう1つの重要な点は、モデルが推論ブロックを推論時と同じ方法で提示する例でトレーニングされるようにすることです。つまり、コンテキスト内で推論ブロックを見ることはありません。これを行うために、トレーニングはaxolotlを使用して手動のテンプレートフリーセグメントデータセットで完了され、モデルがコンテキスト内で推論ブロックを見るようにトレーニングされないようにしました。これは推論時と同様の使用方法です。
このデータセットでこの方法を使用してQwQをトレーニングした結果、長いマルチターンRPチャットでも一貫して首尾一貫した興味深い出力が得られます。これは私たちの知る限り、RPおよびクリエイティブライティング用に正しくトレーニングされた最初の真の推論モデルです。
モデルはhttps://arliai.comでアクセスでき、モデルランキングページもhttps://www.arliai.com/models-rankingにあります。
新しいDiscordサーバーhttps://discord.com/invite/t75KbPgwhkまたはサブレディットhttps://www.reddit.com/r/ArliAI/で質問してください。
モデル説明
QwQ-32B-ArliAI-RpR-v3はRpRシリーズの3番目のリリースです。これはキュレーションされたRPMaxデータセットに基づくRpRデータセットを使用してファインチューニングされた320億パラメータモデルで、長いマルチターンチャットで推論能力を維持する技術が組み込まれています。
仕様
- ベースモデル: QwQ-32B
- 最大コンテキスト長: 最大128K(現実的には32K)
- パラメータ: 32B
- 推論モデル: はい
トレーニング詳細
- シーケンス長: 8192
- エポック: 1エポックトレーニング(RPMaxメソッドから継承)
- ファインチューニング方法: RS-QLORA+(Rank-Stabilized LoRA + LoRA Plus 8x)
- ランク/アルファ: 128-rank 128-alpha
- 学習率: 0.00001
- スケジューラー: Rex
- 勾配蓄積: 32
素晴らしいトレーニンググラフ :)
量子化
- BF16: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v3
- GGUF: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v3-GGUF
STで推論モデルを正しく使用する方法
一般的な推論モデルでは、以下を設定する必要があります:
-
プレフィックスは<think>のみ、サフィックスは</think>のみに設定(スペースや改行なし)
-
返信は<think>で開始
-
Always add character namesはチェックなし
-
Include namesはneverに設定
-
いつものようにチャットテンプレートも使用するモデルに準拠する必要があります
注: 推論モデルはinclude namesがneverに設定されている場合にのみ正しく動作します。これは、応答を出力する前に推論を開始するために、ユーザーターンのeosトークンの後に<think>トークンが続くことを常に期待するためです。include namesを有効にすると、常に"Seraphina:<eos_token>"のようにキャラクター名が末尾に追加され、モデルが応答すべきか推論すべきか混乱します。
その他のサンプラーパラメータは通常通りお好みで設定できます。
思考ブロック内に推論が見られない場合、設定がこの例に従っていないか、STバージョンが古すぎて推論ブロックの自動解析ができないかのどちらかです。
応答全体が推論ブロック内にある場合、<think>と</think>の推論トークンサフィックスとプレフィックスに余分なスペースや改行がある可能性があります。または、モデルがこれらのトークンの間に推論を常に配置するほど賢い推論モデルではない可能性があります。
すべてを正しく設定すると、次のようになります:
詳細: RPMaxの基盤(データセットとトレーニング哲学)
以下のセクションでは、RPMax用に開発されRpRシリーズの基盤となったデータセットとトレーニング方法論の核心となる哲学について詳しく説明します。
目標: 繰り返しの減少と創造性の向上
RPMaxとRpRの両方で使用されるデータセットキュレーションの目標は、繰り返しを減らし、提示されたさまざまな状況で創造的に書くモデルの能力を高めることです。これは、モデルが予測可能な決まり文句に陥ることなく、異なる状況で非常に異なる応答を出力することを意味します。
繰り返しと創造性とは何か?
まず、創造性とはモデルが作成できる出力の多様性を意味するべきです。創造性を文章の美しさと混同しないでください。モデルが小説のように快適な方法で書く場合、これは創造的なライティングではありません。これは単にモデルが特定の快適なタイプの文章を書いているだけです。したがって、うまく書くモデルが必ずしも創造的なモデルであるとは限りません。
繰り返しと創造性は本質的に絡み合っているため、モデルが繰り返しが多い場合、モデルは非創造的であるとも言えます。なぜなら新しいことを書くことができず、以前に作成した類似の応答しか繰り返せないからです。繰り返しには実際には2つの非常に異なる形式があります。
コンテキスト内の繰り返し: 人々がモデルが繰り返しが多いと指摘する場合、通常は単一の会話で同じフレーズを繰り返すモデルを意味します。例として、キャラクターが「髪を払いのけて...」と言い、その後そのキャラクターが行う他のすべてのアクションに「髪を払いのけて...」を前置詞として付け始める場合です。
モデルが退屈であると言えますが、実際の人の文章でも、この種の繰り返しが意図的である可能性があり、微妙にポイントを証明したり、あるシナリオでキャラクターの特徴を示したりする場合があります。したがって、このタイプの繰り返しは必ずしも悪くなく、モデルがこれを行うことを完全に阻止しても、必ずしもモデルのライティング能力が向上するわけではありません。
この点に関して、RPMaxとRpRはまだこのタイプの繰り返しを排除することに焦点を当てていないため、出力にコンテキスト内の繰り返しが見られる場合があります。これを排除することはRPMaxとRpRシリーズのモデルの次の大きなステップとなります。
コンテキスト間の繰り返し: 2番目により悪いタイプの繰り返しは、モデルが非常に異なる状況で同じフレーズや決まり文句を繰り返す傾向です。例として、モデルが「背筋が凍る」という有名なフレーズを、そのフレーズに必ずしも合わないまったく異なる会話で繰り返す場合です。
このタイプの繰り返しは常に悪いです。これはモデルがトレーニングデータセットで頻繁に見られる「クリエイティブライティング」のスタイルに過剰適合している兆候です。モデルがコンテキスト間の繰り返しを持つ傾向は、通常、モデルがストーリーを書く際に類似した繰り返しの多い名前を選択する方法でも見られます。例えば有名な「elara」や「whispering woods」という名前です。
RPMaxとRpRのデータセットキュレーションの主な目標は、コンテキスト間の繰り返しを減らすことで高度に創造的なモデルを作成することです。これは異なる会話を通じて続く繰り返しのタイプです。これはデータセットに異なる例エントリで同じ状況やキャラクターの繰り返しがないことを確認することで対処されます。
データセットキュレーション
このデータセット(RPMaxおよび現在のRpRを含む)でトレーニングされたモデルの成功は、トレーニング方法とファインチューニング用に作成されたユニークなデータセットのおかげです。これには、Hugging Faceから見つかる限りの多くのオープンソースのクリエイティブライティングおよびRPデータセットが含まれており、純粋に合成生成されたデータセットを除外しています。これらはモデルをダメにし、モデルがGPT-isms(駄作)を学習するだけで役に立たないことが多いためです。
次にLlama 3.1 8B(または同様に有能なモデル)を使用して、これらのデータセットに描かれているキャラクターと状況のデータベースを作成し、これらのデータセットを重複排除して、任意のキャラクターまたは状況のエントリが1つだけになるようにします。
ファインチューニングの黄金律
初期の事前トレーニング段階では、データを多く投入すればするほどほとんどの場合良くなるのとは異なり、モデルをファインチューニングする際の黄金律は量ではなく、質が量よりも重要です。そのため、ここで使用されるデータセットは、データセット内でキャラクターや状況が繰り返される場合と比べて実際には桁違いに小さいですが、最終結果は単なる別のクリエイティブライティング/RPモデルの「近親交配」のように感じられないモデルです。
トレーニングパラメータと非従来のアプローチ
通常の方法は、損失の安定性を高めるために低い学習率と高い勾配蓄積を使用し、損失が許容できるまでトレーニング実行を複数回のエポックで実行することです。
しかし、RPMaxおよびRpRの方法論では、1つのエポックのみ、低い勾配蓄積、および通常よりも高い学習率を使用します。トレーニング中の損失曲線は実際には不安定で上下に大きく跳ねますが、平滑化すると時間とともに着実に減少しています。理論的には、これによりモデルはデータセットの各例からより多く学習でき、複数のエポックを使用して同じ例をモデルに2回見せないことで、モデルが単一のキャラクターやストーリーの決まり文句に固執するのを防ぎます。
トレーニング中の損失の上下は、モデルがデータセットの新しいエントリでトレーニングされると、モデルは以前に類似の例を見たことがないため、例エントリと同様の答えを予測できないためです。一方、比較的高い最終損失1.0またはそれより少し高い値は、実際には許容されます。なぜなら、使用されているデータセットとまったく同じように出力できるモデルを作成することが目標ではなかったからです。むしろ、独自のスタイルの応答を作成するのに十分な創造性を持つモデルを作成することが目標でした。
これは、会社の内部知識ベースでモデルをトレーニングする場合など、特定のドメインでモデルをトレーニングし、モデルが例データセットのように確実に出力できる必要がある場合とは異なります。
試してみてください!
モデルの好みは主観的なものなので、ぜひQwQ-32B-ArliAI-RpR-v3を自分で試してみてください。良い悪いを問わず、あなたのフィードバックは常に貴重で、将来のRPMaxおよびRpRモデルの改善に役立ちます。