flammen21 - mistral - 7B开源大语言模型，擅角色扮演、创意写作等通用任务

Home

Flammen21 Mistral 7B

Developed by flammenai

基于Mistral 7B大语言模型，通过预训练模型合并并在Date-DPO-v2数据集上微调，擅长角色扮演、创意写作和通用智能任务。

大型语言模型

Transformers

Open Source License:Apache-2.0 #角色扮演优化 #创意写作增强 #DPO微调

Downloads 23

Release Time : 4/22/2024

Model Overview

Flammen21-mistral-7B是一个基于Mistral 7B架构的大语言模型，经过直接偏好优化(DPO)微调，专注于提升角色扮演、创意写作和通用智能任务的表现。

Model Features

直接偏好优化微调

使用DPO方法在Date-DPO-v2数据集上进行微调，提升了模型在特定任务上的表现

LoRA高效微调

采用低秩适应(LoRA)技术，在保持模型性能的同时显著减少训练资源需求

长上下文处理

支持最大4096 tokens的上下文长度，适合处理长文本任务

Model Capabilities

角色扮演

创意写作

文本生成

对话系统

内容创作

Use Cases

娱乐

角色扮演游戏

作为游戏中的AI角色进行自然对话

提供沉浸式的角色扮演体验

创意写作助手

帮助作家生成创意内容或克服写作障碍

激发创意灵感，提高写作效率

教育

语言学习伙伴

作为语言练习的对话伙伴

提供自然的语言交流环境

🚀 flammen21-mistral-7B

flammen21-mistral-7B 是一个基于 Mistral 7B 的大语言模型（LLM），它通过合并预训练模型并在 flammenai/Date-DPO-v2 数据集上进行微调而构建。Flammen 在角色扮演、创意写作和通用智能方面表现出色。

image/png

✨ 主要特性

卓越的角色扮演能力，能够生动地模拟各种角色。
强大的创意写作功能，可生成高质量的文本内容。
具备通用智能，能处理多种类型的任务。

📚 详细文档

方法

该模型在 Google Colab 上使用 L4 进行微调。可参考 Fine-tune a Mistral-7b model with Direct Preference Optimization - Maxime Labonne 了解更多微调细节。

配置

以下是 LoRA、模型和训练的相关设置：

# LoRA configuration
peft_config = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']
)

# Model to fine-tune
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)
model.config.use_cache = False

# Reference model
ref_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)

# Training arguments
training_args = TrainingArguments(
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    gradient_checkpointing=True,
    learning_rate=5e-5,
    lr_scheduler_type="cosine",
    max_steps=420,
    save_strategy="no",
    logging_steps=1,
    output_dir=new_model,
    optim="paged_adamw_32bit",
    warmup_steps=100,
    bf16=True,
    report_to="wandb",
)

# Create DPO trainer
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    peft_config=peft_config,
    beta=0.1,
    max_prompt_length=2048,
    max_length=4096,
    force_use_ref_model=True
)

# Fine-tune model with DPO
dpo_trainer.train()