L3-8B-Stheno-v3.3-32K开源模型 - 免费部署助力角色扮演与创意写作

Home

L3 8B Stheno V3.3 32K

Developed by Sao10K

基于Llama-3-8B优化的32K长上下文模型，通过PoSE训练扩展上下文长度，专注于角色扮演和创意写作任务

大型语言模型

Transformers

English#PoSE扩展32K上下文 #角色扮演优化 #创意写作增强

Downloads 541

Release Time : 6/22/2024

Model Overview

该模型是通过PoSE训练方法将8K上下文扩展至32K的Llama-3-8B优化版本，特别强化了角色扮演和创意写作能力，同时保持了基础语言理解能力

Model Features

扩展上下文处理

通过PoSE训练方法将上下文长度从8K扩展至32K，优于常规rope缩放方案

高质量角色扮演

经过深度清理和人工筛选的角色扮演样本，提供优异的交互体验

创意写作增强

创意写作训练样本翻倍，显著提升生成质量

优化训练配置

采用经过调试的最优Rope Theta值(200万)配置，确保训练稳定性

Model Capabilities

长文本生成

角色扮演对话

创意内容创作

指令跟随

上下文理解

Use Cases

娱乐与创作

互动式角色扮演

与AI进行沉浸式角色扮演对话

主观体验报告显示交互质量优异

创意写作辅助

生成小说、诗歌等创意文本

训练数据中创意写作样本增加2倍

长文档处理

长文摘要

处理长达32K上下文的文档摘要任务

基础测试显示优于常规rope缩放方案

🚀 L3-8B-Stheno-v3.3-32K模型介绍

本项目是基于特定配置训练的L3-8B-Stheno-v3.3-32K模型，下面将详细介绍该模型的训练情况、相关配置等信息。

📄 许可证

本项目采用CC BY-NC 4.0许可证。

🚀 快速开始

本模型在训练过程中借助了Backyard.ai的计算资源，在此感谢Backyard.ai以及@dynafire的帮助。

🔧 技术细节

训练详情

模型最初在8K上下文环境下进行训练，之后通过PoSE训练将上下文扩展到32K。

数据集修改

角色扮演样本清理：进一步清理了角色扮演样本并进行质量检查。
低质量样本移除：通过人工检查移除了低质量样本，提高了基线质量下限。
创意写作样本增加：创意写作样本数量增加了一倍。
详细指令数据优化：重新制作并优化了详细的指令数据。

注意事项

本次训练比之前的Stheno版本更为温和。
在bf16模式下，使用与文件中相同的配置进行测试时，模型可以正常工作。
目前不清楚量化对该模型的影响。
模型在角色扮演方面表现良好。
在长上下文理解和推理方面存在一些问题，但与常规的rope缩放相比有明显改善。
提醒：该模型并非原生的32K模型，存在一些问题，但整体连贯且工作良好。

合理性检查 // 大海捞针评估结果

该评估不如RULER或NIAN复杂，但可作为基本评估工具。在大多数扩展上下文中，一些不恰当的训练示例的大海捞针得分从红色到橙色不等。

Wandb运行情况

Wandb

相关Axolotl配置

配置参考自winglian/Llama-3-8b-64k-PoSE。
- 经过数小时的调整，发现该配置效果最佳，因此采用了该配置。
- 训练过程中，2M的rope theta在损失结果方面表现最佳。
- 将rope设置为500K时，效果也不错，但4M和8M的theta会使grad_norm值变差，尽管损失下降较快。
- 混入预训练数据会导致格式问题，使效果变差。
- 预训练/噪声也会影响大海捞针评估结果，结果主要为橙色而非全部为绿色。
- 不恰当的rope theta会导致Grad_Norm值急剧上升至数千，即使使用梯度裁剪，其下降速度也非常快，令人担忧。

sequence_len: 8192
use_pose: true
pose_max_context_len: 32768

overrides_of_model_config:
  rope_theta: 2000000.0
  max_position_embeddings: 32768

  # peft_use_dora: true
adapter: lora
peft_use_rslora: true
lora_model_dir:
lora_r: 256
lora_alpha: 256
lora_dropout: 0.1
lora_target_linear: true
lora_target_modules:
  - gate_proj
  - down_proj
  - up_proj
  - q_proj
  - v_proj
  - k_proj
  - o_proj

warmup_steps: 80
gradient_accumulation_steps: 6
micro_batch_size: 1
num_epochs: 2
optimizer: adamw_bnb_8bit
lr_scheduler: cosine_with_min_lr
learning_rate: 0.00004
lr_scheduler_kwargs:
    min_lr: 0.000004