L3-8B-Stheno-v3.3-32Kオープンソースモデル - フリーデプロイでロールプレイと創作執筆をサポート

ホーム

L3 8B Stheno V3.3 32K

Sao10Kによって開発

Llama-3-8Bを最適化した32K長文コンテキストモデル。PoSEトレーニングによりコンテキスト長を拡張し、ロールプレイとクリエイティブライティングタスクに特化

大規模言語モデル

Transformers

英語#PoSE拡張32Kコンテキスト #ロールプレイ最適化 #クリエイティブライティング強化

ダウンロード数 541

リリース時間 : 6/22/2024

モデル概要

このモデルはPoSEトレーニング手法により8Kコンテキストから32Kへ拡張したLlama-3-8B最適化版で、ロールプレイとクリエイティブライティング能力を特に強化しつつ基礎的な言語理解能力を保持

モデル特徴

拡張コンテキスト処理

PoSEトレーニング手法によりコンテキスト長を8Kから32Kへ拡張。通常のropeスケーリング手法を上回る性能

高品質ロールプレイ

徹底的なクリーニングと手動選別を施したロールプレイサンプルで優れたインタラクション体験を提供

クリエイティブライティング強化

クリエイティブライティングトレーニングサンプルを2倍に増量し、生成品質を大幅向上

最適化トレーニング設定

調整済みの最適Rope Theta値(200万)設定を採用し、トレーニング安定性を確保

モデル能力

長文生成

ロールプレイ対話

クリエイティブコンテンツ作成

指示追従

コンテキスト理解

使用事例

エンターテインメント＆クリエイション

インタラクティブロールプレイ

AIとの没入型ロールプレイ対話

主観的体験レポートで優れたインタラクション品質を示す

クリエイティブライティング支援

小説、詩などのクリエイティブテキスト生成

トレーニングデータ内のクリエイティブライティングサンプルが2倍増加

長文ドキュメント処理

長文要約

32Kコンテキスト長のドキュメント要約タスク処理

基本テストで通常のropeスケーリング手法を上回る性能

🚀 L3-8B-Stheno-v3.3-32K モデル

このモデルは、特定のコンテキストでの性能を向上させるためにトレーニングされた言語モデルです。PoSEトレーニングを用いてコンテキスト長を拡張し、データセットの質を向上させることで、様々なタスクでの性能を改善しています。

🚀 クイックスタート

このモデルのトレーニングには、Backyard.ai のコンピューティングリソースを使用しています。彼らと @dynafire の助けに感謝します。

✨ 主な機能

コンテキスト長の拡張：8KコンテキストからPoSEトレーニングを用いて32Kコンテキストに拡張。
データセットの改善：ロールプレイングサンプルのクリーニング、低品質サンプルの削除、クリエイティブライティングサンプルの増加、詳細な命令データの再作成と改良。
性能評価：基本的な評価ツールを用いて評価し、結果を可視化。

📚 ドキュメント

トレーニング詳細

トレーニングは8Kコンテキストで開始され、PoSEトレーニングを用いて32Kコンテキストに拡張されました。

データセットの変更点

ロールプレイングサンプルのさらなるクリーニングと品質チェック。
手動チェックによる低品質サンプルの削除で、ベースラインの品質下限を引き上げました。
クリエイティブライティングサンプルを2倍に増やしました。
詳細な命令データを再作成し、改良しました。

注意事項

トレーニングの実行は、以前のSthenoバージョンよりも攻撃的ではありません。
このモデルは、ファイル内と同じ設定でbf16でテストした場合に動作します。
量子化がモデルに与える影響は不明です。
ロールプレイングの性能は良好で、個人的には使い心地が良いです。
長いコンテキストの理解と推論にはいくつかの問題がありますが、通常のropeスケーリングと比較すると大幅に改善されています。
これはネイティブの32Kモデルではないことに注意してください。問題はありますが、首尾一貫して動作しています。

健全性チェック // ニードルインハイスタックの結果

この評価はRULERやNIANほど複雑ではありませんが、基本的な評価ツールです。不適切なトレーニング例では、拡張コンテキストの大部分でハイスタックスコアが赤色から橙色の範囲にありました。 Results

Wandbの実行結果

Wandb

関連するAxolotl設定

設定は winglian/Llama-3-8b-64k-PoSE から取得しました。独自の設定を探して何時間も試行錯誤しましたが、彼が使用した設定が最も良い結果を出したので、それに従いました。

トレーニング中、2MのRope Thetaが他の値と比較して最も良い損失結果を示しました。
500Kのropeに設定してもそれほど悪化しませんでしたが、4Mと8MのThetaでは、損失が急速に低下してもgrad_normの値が悪化しました。
事前学習データを混入すると、フォーマットが悪化し、性能が低下しました。
事前学習 / ノイズは、ハイスタックの性能も悪化させました。主に橙色の結果となり、すべて緑色にはなりませんでした。
不適切な / 悪いRope Thetaは、Grad_Normが数千に急増することで現れます。勾配クリッピングを行っても、急速に低下するので注意が必要です。

sequence_len: 8192
use_pose: true
pose_max_context_len: 32768

overrides_of_model_config:
  rope_theta: 2000000.0
  max_position_embeddings: 32768

  # peft_use_dora: true
adapter: lora
peft_use_rslora: true
lora_model_dir:
lora_r: 256
lora_alpha: 256
lora_dropout: 0.1
lora_target_linear: true
lora_target_modules:
  - gate_proj
  - down_proj
  - up_proj
  - q_proj
  - v_proj
  - k_proj
  - o_proj

warmup_steps: 80
gradient_accumulation_steps: 6
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit
lr_scheduler: cosine_with_min_lr
learning_rate: 0.00004
lr_scheduler_kwargs:
    min_lr: 0.000004