flammen21 - mistral - 7B開源大語言模型，擅角色扮演、創意寫作等通用任務

首頁

Flammen21 Mistral 7B

由flammenai開發

基於Mistral 7B大語言模型，通過預訓練模型合併並在Date-DPO-v2數據集上微調，擅長角色扮演、創意寫作和通用智能任務。

大型語言模型

Transformers

開源協議:Apache-2.0 #角色扮演優化 #創意寫作增強 #DPO微調

下載量 23

發布時間 : 4/22/2024

模型概述

Flammen21-mistral-7B是一個基於Mistral 7B架構的大語言模型，經過直接偏好優化(DPO)微調，專注於提升角色扮演、創意寫作和通用智能任務的表現。

模型特點

直接偏好優化微調

使用DPO方法在Date-DPO-v2數據集上進行微調，提升了模型在特定任務上的表現

LoRA高效微調

採用低秩適應(LoRA)技術，在保持模型性能的同時顯著減少訓練資源需求

長上下文處理

支持最大4096 tokens的上下文長度，適合處理長文本任務

模型能力

角色扮演

創意寫作

文本生成

對話系統

內容創作

使用案例

娛樂

角色扮演遊戲

作為遊戲中的AI角色進行自然對話

提供沉浸式的角色扮演體驗

創意寫作助手

幫助作家生成創意內容或克服寫作障礙

激發創意靈感，提高寫作效率

教育

語言學習夥伴

作為語言練習的對話夥伴

提供自然的語言交流環境

🚀 flammen21-mistral-7B

flammen21-mistral-7B 是一個基於 Mistral 7B 的大語言模型（LLM），它通過合併預訓練模型並在 flammenai/Date-DPO-v2 數據集上進行微調而構建。Flammen 在角色扮演、創意寫作和通用智能方面表現出色。

image/png

✨ 主要特性

卓越的角色扮演能力，能夠生動地模擬各種角色。
強大的創意寫作功能，可生成高質量的文本內容。
具備通用智能，能處理多種類型的任務。

📚 詳細文檔

方法

該模型在 Google Colab 上使用 L4 進行微調。可參考 Fine-tune a Mistral-7b model with Direct Preference Optimization - Maxime Labonne 瞭解更多微調細節。

配置

以下是 LoRA、模型和訓練的相關設置：

# LoRA configuration
peft_config = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']
)

# Model to fine-tune
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)
model.config.use_cache = False

# Reference model
ref_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    load_in_4bit=True
)

# Training arguments
training_args = TrainingArguments(
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    gradient_checkpointing=True,
    learning_rate=5e-5,
    lr_scheduler_type="cosine",
    max_steps=420,
    save_strategy="no",
    logging_steps=1,
    output_dir=new_model,
    optim="paged_adamw_32bit",
    warmup_steps=100,
    bf16=True,
    report_to="wandb",
)

# Create DPO trainer
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    peft_config=peft_config,
    beta=0.1,
    max_prompt_length=2048,
    max_length=4096,
    force_use_ref_model=True
)

# Fine-tune model with DPO
dpo_trainer.train()