Qwq 32B ArliAI RpR V4 GGUF

ArliAIによって開発

ArliAIが提供する高性能ロールプレイとクリエイティブライティング推論モデル、320億パラメータのQwQ-32Bベースモデルを微調整し、長い対話の一貫性と創造的な出力に特化

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #長文ロールプレイ #推論強化創作 #16Kコンテキストメモリ

ダウンロード数 1,957

リリース時間 : 5/22/2025

モデル概要

ロールプレイとクリエイティブライティングに最適化された推論モデル、RPMaxデータセットの再構築により長い対話能力を強化、反復やキャラクターの代演問題を減少

モデル特徴

長い対話推論能力

トレーニングシーケンス長を16Kに拡張、長い対話における状況認識と記憶能力を強化

反復と代演の減少

先進的なフィルタリング手法により、類似フレーズの反復やユーザーの代弁を減少

クリエイティブライティング最適化

精選されたRPMaxデータセットに基づき、高度に創造的でコンテキスト間の反復が少ない出力を保証

拡張コンテキストサポート

ネイティブで32Kコンテキスト長をサポート、Yarn技術を使用すると128Kまで拡張可能

モデル能力

長文生成

ロールプレイ対話

クリエイティブライティング

マルチターン対話推論

使用事例

エンターテインメントと創作

インタラクティブロールプレイ

AIキャラクターとの深い対話

一貫性がありキャラクター設定に沿った長い対話を生成

クリエイティブライティング支援

小説、脚本などのクリエイティブコンテンツ生成

多様な創造的表現とプロット展開を提供

license: apache-2.0 thumbnail: https://cdn-uploads.huggingface.co/production/uploads/6625f4a8a8d1362ebcc3851a/hIZ2ZcaDyfYLT9Yd4pfOs.jpeg language:

en base_model:
ArliAI/QwQ-32B-ArliAI-RpR-v4 library_name: transformers pipeline_tag: text-generation

QwQ-32B-ArliAI-RpR-v4

画像はArli AI Image Generationで生成 https://www.arliai.com/image-generation

RpR v4の変更点:

ArliAI史上最高のRP/クリエイティブモデルが再び登場。

繰り返しとなりすましの減少

RpR v3の創造性と型破りな思考に加え、より高度なフィルタリング手法を採用し、LLMが類似フレーズを繰り返したりユーザーの代わりに話したりする例を除去。発生する繰り返しやなりすましは、ベースQwQモデルの学習方法によるものであり、RpRデータセットが原因ではありません。
学習シーケンス長の増加

より長いチャットでも認識力と記憶力を維持するため、学習シーケンス長を16Kに増加。

RpRシリーズ概要: RPMaxを基盤とした推論機能の構築

RpR（RolePlay with Reasoning）はArliAIの新シリーズ。このシリーズはRPMaxシリーズで開発されたデータセット選定方法論と学習手法を直接継承しています。

RpRモデルはRPMaxで使用された精選・重複排除済みRP/クリエイティブライティングデータセットを活用し、多様性に重点を置くことで高い創造性を確保し、文脈横断的な繰り返しを最小化。RPMaxユーザーは、他のRP用ファインチューン済みモデルとは異なる独自の非反復的ライティングスタイルを認識するでしょう。

高性能オープンソース推論モデルQwQの登場により、利用可能な指示・クリエイティブライティング推論データセットが各例につき1応答しか含まないことが明らかになりました。この種の単一応答データセットは、長文マルチターンチャットで出力品質の劣化を引き起こします。そのためArli AIは、長文マルチターンチャット可能な真のRP推論モデルを作成することを決定しました。

RpR作成にはまず、既存の高品質RPMaxデータセットを推論データセットに再処理する必要がありました。ベースQwQ Instructモデル自体を使用してRPMaxデータセット会話例の各ターンに対する推論プロセスを生成し、データセットの実際の応答例と推論が整合するようさらに精緻化しました。

もう1つの重要な点は、推論ブロックを推論時と同様の方法で提示する例でモデルを訓練することです。つまり、コンテキスト内で推論ブロックを見ないようにすること。これを実現するため、axolotlを使用し手動テンプレートフリーセグメントデータセットで学習を実施し、モデルがコンテキスト内で推論ブロックを見るよう訓練されないようにしました。これは推論時の使用方法と完全に一致しています。

このデータセットと方法でQwQを訓練した結果、長文マルチターンRPチャットでも一貫して首尾一貫した興味深い出力が得られます。私たちの知る限り、これはRPとクリエイティブライティング向けに正しく訓練された最初の真の推論モデルです。

モデルは https://arliai.com でアクセス可能で、モデルランキングページも https://www.arliai.com/models-ranking に用意しています。

新しいDiscordサーバー https://discord.com/invite/t75KbPgwhk またはサブレディット https://www.reddit.com/r/ArliAI/ で質問してください。

モデル説明

QwQ-32B-ArliAI-RpR-v4はRpRシリーズ第3弾。32Bパラメータモデルで、RPMaxデータセットを基にしたRpRデータセットを使用し、長文マルチターンチャットでの推論能力を維持する技術でファインチューンされています。

推奨サンプラー

RpRモデルは反復ペナルティ型サンプラー（XTCやDRYなどの高度なもの含む）との相性が良くありません。
単純なサンプラー設定と長時間の推論（高い最大トークン数）が最適です。
このリポジトリのファイルセクションにアップロードされたSTマスターエクスポートもダウンロード可能です。

最初に以下の設定から始めることを推奨:

温度: 1.0
MinP: 0.02
TopK: 40
応答トークン: 2048+

仕様

ベースモデル: QwQ-32B
最大コンテキスト長: Yarn使用時最大128K（ベースQwQと同様にネイティブ32K）
パラメータ: 32B
推論モデル: はい

学習詳細

シーケンス長: 16384
エポック: 1エポック学習（RPMax手法から継承）
ファインチューン方法: RS-QLORA+（Rank-Stabilized LoRA + LoRA Plus 8x）
ランク/アルファ: 128-rank 128-alpha
学習率: 0.00001
スケジューラー: Rex
勾配累積: 32

素晴らしい学習グラフ :)

量子化

BF16: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4
GGUF: https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v4-GGUF

STで推論モデルを正しく使用する方法

一般的な推論モデルでは以下を確認する必要があります:

プレフィックスは<think>のみ、サフィックスは</think>のみ（スペースや改行なし）
返信は<think>で開始
「常にキャラクター名を追加」は未チェック
「名前を含める」は「never」に設定
チャットテンプレートは使用モデルに準拠

注: 推論モデルは「名前を含める」が「never」の場合のみ正常動作します。ユーザーターンのeosトークン直後に<think>トークンが続き、応答前に推論を開始することを期待するためです。「名前を含める」を有効にすると「セラフィナ:<eos_token>」のように常にキャラクター名が追加され、応答と推論の優先順位が混乱します。

その他のサンプラーパラメータは通常通り自由に設定可能。

思考ブロック内に推論が見られない場合、設定がこの例に従っていないか、STバージョンが古く推論ブロック自動解析機能がない可能性があります。

応答全体が推論ブロック内にある場合、<think>と</think>推論トークンの接頭辞/接尾辞に余分なスペースや改行があるか、モデルがこれらのトークン間に推論を配置するほど賢い推論モデルでない可能性があります。

すべて正しく設定すると以下のようになります:

詳細: RPMax基盤（データセットと学習哲学）

以下のセクションは、RpRシリーズの基盤となったRPMaxのデータセットと学習方法論の核心哲学を詳述します。

目標: 反復の減少と創造性の向上

RPMaxとRpRで使用されるデータセット選定の目標は、反復を減らし、様々な状況で創造的に記述するモデルの能力を高めることです。つまり、異なる状況に対して非常に異なる応答を出力し、予測可能な決まり文句に陥らないモデルを作成することです。

反復と創造性とは？

まず、創造性とはモデルが生成可能な出力の多様性を意味すべきです。創造的ライティングを散文的な記述と混同すべきではありません。モデルが小説家のような快い文体で記述する能力は、創造的ライティングではありません。これは単に特定の快い散文スタイルを持つモデルです。したがって、美しく記述するモデルが必ずしも創造的モデルとは限りません。

反復と創造性は本質的に絡み合っており、反復的なモデルは新しい内容を記述できず以前の類似応答しか繰り返せないため、非創造的とも言えます。反復には実際には2つの異なる形態があります。

コンテキスト内反復: モデルが反復的と指摘される場合、通常は単一会話内で同じフレーズを繰り返す傾向を指します。例えば、キャラクターが「髪を払いのけ...」と言い、その後そのキャラクターの他の動作全てに「髪を払いのけ...」を前置するなど。

モデルが退屈と言えますが、実際の人間の記述でも、この種の反復が意図的で、微妙に要点を証明したりキャラクター特性を示す場合があります。したがって、この種の反復が常に悪いわけではなく、これを完全に阻止しても必ずしもモデルの記述能力が向上するわけではありません。

この点に関し、RPMaxとRpRはまだこの種の反復を排除することに焦点を当てておらず、出力にコンテキスト内反復が見られる可能性があります。これを排除することがRPMaxとRpRシリーズの次の大きなステップとなります。

文脈横断的反復: より悪質な反復は、モデルが非常に異なる状況で同じフレーズや決まり文句を繰り返す傾向です。例えば、「背筋が凍る」というフレーズを、そのフレーズに必ずしも適合しない全く異なる会話で繰り返すモデルなど。

この種の反復は常に悪く、モデルが訓練データセットで頻繁に見た「創造的ライティング」スタイルに過剰適合している兆候です。文脈横断的反復傾向は、モデルが物語を記述する際に類似した反復的な名前を選択する傾向（有名な「エララ」や「ささやきの森」など）にも通常現れます。

RPMaxとRpRのデータセット選定の主目的は、文脈横断的反復を減らすことで高度に創造的なモデルを作成することです。これは異なる会話にわたって続く反復タイプであり、データセットが異なる例エントリで同じ状況やキャラクターの繰り返しを含まないようにすることで対処します。

データセット選定

このデータセット（RPMaxおよび現在のRpR含む）で訓練されたモデルの成功は、訓練方法とファインチューニング用に作成された独自データセットによるものです。可能な限り多くのオープンソースクリエイティブライティングおよびRPデータセット（全てHugging Faceから）を含み、純粋に合成生成されたデータセットを除去しました。これらはモデルを鈍化させGPT的表現（slop）を学習させる傾向があるためです。

次にLlama 3.1 8B（または同程度の能力を持つモデル）を使用し、これらのデータセットに描かれたキャラクターと状況のデータベースを作成。これを使用してデータセットの重複を排除し、各キャラクターや状況のエントリが単一であることを保証しました。

ファインチューンの黄金律

初期事前学習段階ではデータが多いほど良い結果が得られる傾向がありますが、ファインチューンにおける黄金律は量ではなく質です。そのため、ここで使用されるデータセットは、キャラクターや状況が繰り返される場合と比べて桁違いに小規模ですが、結果は単なる別のクリエイティブライティング/RPモデルの「近親交配」ではないモデルとなります。

学習パラメータと非従来的手法

通常の方法は、低学習率と高勾配累積で損失安定性を高め、損失が許容範囲になるまで複数エポック学習を実行します。

しかしRPMaxとRpRの方法論では、単一エポックのみ、低勾配累積、通常より高い学習率を使用します。学習中の損失曲線は実際不安定で大きく変動しますが、平滑化すると時間とともに着実に減少します。理論的には、これによりモデルがデータセットの各例からより多く学習でき、複数エポックで同じ例を2度見せないことで、単一キャラクターや物語の決まり文句に固着・強化するのを防ぎます。

学習中の損失変動は、モデルがデータセットの新規エントリを学習する際、類似例を以前見たことがないため、例エントリと類似した回答を予測できないためです。1.0または少し高い最終損失は実際許容範囲です。なぜなら、使用データセットと全く同じように出力するモデルを作成することが目的ではなく、独自の応答スタイルを作り出せるほど創造的なモデルを作成することが目的だからです。

これは、企業の内部知識ベースでモデルを訓練する場合など、特定ドメインで訓練しモデルにデータセット例のように確実に出力させる必要がある場合とは異なります。