L3-8B-Stheno-v3.3-32K開源模型 - 免費部署助力角色扮演與創意寫作

首頁

L3 8B Stheno V3.3 32K

由Sao10K開發

基於Llama-3-8B優化的32K長上下文模型，通過PoSE訓練擴展上下文長度，專注於角色扮演和創意寫作任務

大型語言模型

Transformers

英語#PoSE擴展32K上下文 #角色扮演優化 #創意寫作增強

下載量 541

發布時間 : 6/22/2024

模型概述

該模型是通過PoSE訓練方法將8K上下文擴展至32K的Llama-3-8B優化版本，特別強化了角色扮演和創意寫作能力，同時保持了基礎語言理解能力

模型特點

擴展上下文處理

通過PoSE訓練方法將上下文長度從8K擴展至32K，優於常規rope縮放方案

高質量角色扮演

經過深度清理和人工篩選的角色扮演樣本，提供優異的交互體驗

創意寫作增強

創意寫作訓練樣本翻倍，顯著提升生成質量

優化訓練配置

採用經過調試的最優Rope Theta值(200萬)配置，確保訓練穩定性

模型能力

長文本生成

角色扮演對話

創意內容創作

指令跟隨

上下文理解

使用案例

娛樂與創作

互動式角色扮演

與AI進行沉浸式角色扮演對話

主觀體驗報告顯示交互質量優異

創意寫作輔助

生成小說、詩歌等創意文本

訓練數據中創意寫作樣本增加2倍

長文檔處理

長文摘要

處理長達32K上下文的文檔摘要任務

基礎測試顯示優於常規rope縮放方案

🚀 L3-8B-Stheno-v3.3-32K模型介紹

本項目是基於特定配置訓練的L3-8B-Stheno-v3.3-32K模型，下面將詳細介紹該模型的訓練情況、相關配置等信息。

📄 許可證

本項目採用CC BY-NC 4.0許可證。

🚀 快速開始

本模型在訓練過程中藉助了Backyard.ai的計算資源，在此感謝Backyard.ai以及@dynafire的幫助。

🔧 技術細節

訓練詳情

模型最初在8K上下文環境下進行訓練，之後通過PoSE訓練將上下文擴展到32K。

數據集修改

角色扮演樣本清理：進一步清理了角色扮演樣本並進行質量檢查。
低質量樣本移除：通過人工檢查移除了低質量樣本，提高了基線質量下限。
創意寫作樣本增加：創意寫作樣本數量增加了一倍。
詳細指令數據優化：重新制作並優化了詳細的指令數據。

注意事項

本次訓練比之前的Stheno版本更為溫和。
在bf16模式下，使用與文件中相同的配置進行測試時，模型可以正常工作。
目前不清楚量化對該模型的影響。
模型在角色扮演方面表現良好。
在長上下文理解和推理方面存在一些問題，但與常規的rope縮放相比有明顯改善。
提醒：該模型並非原生的32K模型，存在一些問題，但整體連貫且工作良好。

合理性檢查 // 大海撈針評估結果

該評估不如RULER或NIAN複雜，但可作為基本評估工具。在大多數擴展上下文中，一些不恰當的訓練示例的大海撈針得分從紅色到橙色不等。

Wandb運行情況

Wandb

相關Axolotl配置

配置參考自winglian/Llama-3-8b-64k-PoSE。
- 經過數小時的調整，發現該配置效果最佳，因此採用了該配置。
- 訓練過程中，2M的rope theta在損失結果方面表現最佳。
- 將rope設置為500K時，效果也不錯，但4M和8M的theta會使grad_norm值變差，儘管損失下降較快。
- 混入預訓練數據會導致格式問題，使效果變差。
- 預訓練/噪聲也會影響大海撈針評估結果，結果主要為橙色而非全部為綠色。
- 不恰當的rope theta會導致Grad_Norm值急劇上升至數千，即使使用梯度裁剪，其下降速度也非常快，令人擔憂。

sequence_len: 8192
use_pose: true
pose_max_context_len: 32768

overrides_of_model_config:
  rope_theta: 2000000.0
  max_position_embeddings: 32768

  # peft_use_dora: true
adapter: lora
peft_use_rslora: true
lora_model_dir:
lora_r: 256
lora_alpha: 256
lora_dropout: 0.1
lora_target_linear: true
lora_target_modules:
  - gate_proj
  - down_proj
  - up_proj
  - q_proj
  - v_proj
  - k_proj
  - o_proj

warmup_steps: 80
gradient_accumulation_steps: 6
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit
lr_scheduler: cosine_with_min_lr
learning_rate: 0.00004
lr_scheduler_kwargs:
    min_lr: 0.000004