L3.3 GeneticLemonade Unleashed V3 70B
這是一個基於Llama 3.3的70B參數大語言模型,經過SFT+DPO微調,專注於角色驅動的對話和創意內容生成
下載量 119
發布時間 : 5/18/2025
模型概述
實驗性發布的創意模型,擅長角色扮演(RP)和情感角色扮演(ERP),提供更長、敘事性強的響應,能準確且主動地描繪角色
模型特點
角色驅動對話
專門針對角色扮演場景優化,能準確描繪角色特徵和行為
長文本敘事能力
能生成更長、更具敘事性的響應,適合故事創作和角色發展
SFT+DPO微調
先通過290萬token數據集進行監督微調(SFT),再使用1100個高質量樣本進行直接偏好優化(DPO)
高溫度適應性
相比其他Llama 3模型,支持更高的溫度設置(0.9-1.2),增加輸出多樣性
模型能力
角色扮演對話生成
情感角色扮演(ERP)
創意文本生成
長文本敘事
使用案例
娛樂與創意
角色扮演遊戲
為角色扮演遊戲提供生動的角色對話和情節發展
生成符合角色設定的長對話和敘事
創意寫作輔助
輔助作家進行故事創作和角色開發
提供創意靈感和敘事結構
🚀 基因檸檬水3.0版(GENETIC LEMONADE UNLEASHED v3)
基因檸檬水3.0版是一個實驗性的模型版本,基於zerofata/L3.3-GeneticLemonade-Unleashed-70B
進行SFT+DPO QLora微調。該模型旨在擅長基於角色的角色扮演(RP / ERP),能夠提供較長且敘事豐富的回覆,準確且主動地刻畫角色。
🚀 快速開始
本模型是一個實驗性版本,是對 zerofata/GeneticLemonade-Unleashed 進行SFT+DPO QLora微調後的成果。它主要用於基於角色的角色扮演(RP / ERP),尚未在冒險故事或大量創意寫作上進行測試和訓練。該模型旨在提供較長且敘事豐富的回覆,能夠準確且主動地刻畫角色。
✨ 主要特性
- 角色扮演專長:專為基於角色的角色扮演(RP / ERP)設計,能出色地刻畫角色。
- 長敘事回覆:提供較長且敘事豐富的回覆內容。
📚 詳細文檔
🍺 SillyTavern設置
這些設置並非“最佳”設置,只是一個穩定的基線。值得注意的是,該模型支持比其他L3模型通常建議的更高溫度值。
推薦採樣器設置
參數 | 取值範圍 |
---|---|
溫度(Temp) | 0.9 - 1.2 |
最小概率(MinP) | 0.03 - 0.04 |
核採樣概率(TopP) | 0.9 - 1.0 |
乾燥度(Dry) | 0.8, 1.75, 4 |
指令設置
使用Llama-3-Instruct-Names
,但需要取消勾選“系統與用戶相同”。
🔢 量化版本
GGUF
EXL2
🏋️ 訓練過程
- SFT階段:模型首先使用一個包含290萬個標記(約750個對話)的小型合成數據集進行監督微調(SFT)。該數據集主要是角色扮演數據,包含少量隨機指令/助手數據和創意寫作內容。
- DPO階段:然後,模型使用從SFT數據集中挑選出的約1100個高質量或能證明遵循指令的示例進行直接偏好優化(DPO)訓練。被拒絕的樣本是使用另一個以不擅長遵循指令而聞名的Llama 3.3微調模型生成的。
Axolotl配置
以下是SFT和DPO階段的Axolotl配置文件,這些配置未針對成本/性能效率進行優化,實際效果可能因人而異。
SFT 1*H200
# ====================
# MODEL CONFIGURATION
# ====================
base_model: zerofata/L3.3-GeneticLemonade-Unleashed-70B
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
special_tokens:
pad_token: "<|finetune_right_pad_id|>"
chat_template: llama3
# ====================
# DATASET CONFIGURATION
# ====================
datasets:
- path: ./dataset.jsonl
type: chat_template
split: train
chat_template_strategy: tokenizer
field_messages: messages
message_property_mappings:
role: role
content: content
roles:
user: ["user"]
assistant: ["assistant"]
system: ["system"]
test_datasets:
- path: ./validate_dataset.jsonl
type: chat_template
split: train
chat_template_strategy: tokenizer
field_messages: messages
message_property_mappings:
role: role
content: content
roles:
user: ["user"]
assistant: ["assistant"]
system: ["system"]
dataset_prepared_path:
train_on_inputs: false # Only train on assistant responses
# ====================
# QLORA CONFIGURATION
# ====================
adapter: qlora
load_in_4bit: true
lora_r: 64
lora_alpha: 128
lora_dropout: 0.1
lora_target_linear: true
# lora_modules_to_save: # Uncomment only if you added NEW tokens
# ====================
# TRAINING PARAMETERS
# ====================
num_epochs: 2
micro_batch_size: 4
gradient_accumulation_steps: 2
learning_rate: 1.5e-5
optimizer: paged_adamw_8bit
lr_scheduler: rex
warmup_ratio: 0.05
weight_decay: 0.01
max_grad_norm: 1.0
# ====================
# SEQUENCE & PACKING
# ====================
sequence_len: 8192
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: true
# ====================
# HARDWARE OPTIMIZATIONS
# ====================
bf16: auto
flash_attention: true
gradient_checkpointing: true
# ====================
# EVALUATION & CHECKPOINTING
# ====================
evaluation_strategy: steps
eval_steps: 5
save_strategy: steps
save_steps: 5
save_total_limit: 5 # Keep best + last few checkpoints
load_best_model_at_end: true
metric_for_best_model: eval_loss
greater_is_better: false
early_stopping_patience: 5
# ====================
# LOGGING & OUTPUT
# ====================
output_dir: ./output_model
logging_steps: 2
save_safetensors: true
# ====================
# WANDB TRACKING
# ====================
wandb_project: project_name
# wandb_entity: your_entity
# wandb_name: your_run_name
DPO 2*H200
# ====================
# MODEL CONFIGURATION
# ====================
base_model: ApocalypseParty/unleashed-fulldata30
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
special_tokens: {}
chat_template: tokenizer_default
# ====================
# RL/DPO CONFIGURATION
# ====================
rl: dpo
rl_beta: 0.07
# ====================
# DATASET CONFIGURATION
# ====================
datasets:
- path: ./dpo_cleaned-v3_deduplicated.jsonl
type: chat_template.default
field_messages: conversation
field_chosen: chosen
field_rejected: rejected
message_property_mappings:
role: role
content: content
roles:
system: ["system"]
user: ["user"]
assistant: ["assistant"]
dataset_prepared_path:
train_on_inputs: false # Only train on assistant responses
# ====================
# QLORA CONFIGURATION
# ====================
adapter: qlora
load_in_4bit: true
lora_r: 32
lora_alpha: 64
lora_dropout: 0.05
lora_target_linear: true
# lora_modules_to_save: # Uncomment only if you added NEW tokens
# ====================
# TRAINING PARAMETERS
# ====================
num_epochs: 1
micro_batch_size: 4
gradient_accumulation_steps: 2
learning_rate: 2e-6
optimizer: adamw_8bit
lr_scheduler: cosine
warmup_steps: 5
weight_decay: 0.01
max_grad_norm: 1.0
# ====================
# SEQUENCE CONFIGURATION
# ====================
sequence_len: 4096
pad_to_sequence_len: true
# ====================
# HARDWARE OPTIMIZATIONS
# ====================
bf16: auto
tf32: false
flash_attention: true
gradient_checkpointing: offload
deepspeed: deepspeed_configs/zero1.json
# ====================
# CHECKPOINTING
# ====================
save_steps: 10
save_total_limit: 10
load_best_model_at_end: true
metric_for_best_model: eval_loss
greater_is_better: false
# ====================
# LOGGING & OUTPUT
# ====================
output_dir: ./dpo_model
logging_steps: 2
save_safetensors: true
# ====================
# WANDB TRACKING
# ====================
wandb_project: project_name
# wandb_entity: your_entity
# wandb_name: your_run_name
📄 許可證
本模型使用llama3
許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98