TinyMistral-248M-Chat-v3開源聊天模型 - 多數據集優化，勝任多種對話任務

首頁

Tinymistral 248M Chat V3

由Felladrin開發

TinyMistral-248M-Chat 是一個基於 TinyMistral-248M 的聊天模型，經過多數據集訓練和優化，適用於多種對話任務。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #輕量級對話模型 #多領域知識問答 #ChatML格式支持

下載量 456

發布時間 : 11/16/2023

模型概述

這是一個輕量級的聊天模型，基於 TinyMistral-248M 架構，經過多種對話數據集訓練，能夠進行友好、知識豐富的對話。

模型特點

輕量級模型

僅有 248M 參數，適合資源有限的環境。

多數據集訓練

使用了多個高質量的對話數據集進行訓練，包括 ultrachat_200k、OpenOrca 等。

ChatML 格式支持

支持 ChatML 格式的對話模板，便於集成和使用。

DPO 微調

經過 DPO (Direct Preference Optimization) 微調，提升了對話質量。

模型能力

文本生成

對話交互

知識問答

創意寫作

使用案例

對話助手

日常對話

用於日常聊天和簡單問題回答。

能夠進行友好、流暢的對話。

知識問答

回答用戶關於各種主題的問題。

提供準確、有用的信息。

創意寫作

故事生成

生成科幻、奇幻等類型的故事背景和情節。

能夠生成富有創意的故事內容。

🚀 TinyMistral-248M-Chat

TinyMistral-248M-Chat 是基於特定基礎模型，利用多組數據集訓練得到的模型，可用於文本生成任務，能為用戶提供準確、友好的信息回覆。

🚀 快速開始

本模型可用於文本生成任務，你可以按照以下步驟開始使用。

使用示例

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
import torch

model_path = "Felladrin/TinyMistral-248M-Chat-v4"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path).to(device)
streamer = TextStreamer(tokenizer)
messages = [
    {
        "role": "system",
        "content": "You are a highly knowledgeable and friendly assistant. Your goal is to understand and respond to user inquiries with clarity. Your interactions are always respectful, helpful, and focused on delivering the most accurate information to the user.",
    },
    {
        "role": "user",
        "content": "Hey! Got a question for you!",
    },
    {
        "role": "assistant",
        "content": "Sure! What's it?",
    },
    {
        "role": "user",
        "content": "What are some potential applications for quantum computing?",
    },
]
prompt = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer(prompt, return_tensors="pt").to(device)
model.generate(
    inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_length=tokenizer.model_max_length,
    streamer=streamer,
    eos_token_id=tokenizer.eos_token_id,
    pad_token_id=tokenizer.pad_token_id,
    do_sample=True,
    temperature=0.6,
    top_p=0.8,
    top_k=0,
    min_p=0.1,
    typical_p=0.2,
    repetition_penalty=1.176,
)

✨ 主要特性

基礎模型：基於 Locutusque/TinyMistral-248M，並添加了兩個特殊標記 (<|im_start|> 和 <|im_end|>)。
數據集豐富：使用了多組數據集進行訓練，包括 HuggingFaceH4/ultrachat_200k、Open-Orca/OpenOrca 等。
許可證：採用 Apache License 2.0。

📚 詳細文檔

訓練方式

SFT 訓練

本模型使用 SFTTrainer 進行訓練，使用的設置如下：

超參數	值
學習率	2e-5
總訓練批次大小	32
最大序列長度	2048
權重衰減	0.01
預熱比例	0.1
NEFTune 噪聲 Alpha	5
優化器	Adam（beta=(0.9,0.999)，epsilon=1e-08）
調度器	cosine
隨機種子	42

DPO 微調

然後，通過 LLaMA-Factory 使用 DPO 方法進行微調，使用的超參數和命令如下：

參數	值
數據集	HuggingFaceH4/ultrafeedback_binarized
學習率	1e-06
訓練批次大小	4
評估批次大小	8
隨機種子	42
分佈式類型	多 GPU
設備數量	8
梯度累積步數	4
總訓練批次大小	128
總評估批次大小	64
優化器	adamw_8bit（beta=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型	cosine
學習率調度器預熱比例	0.1
訓練輪數	2.0

llamafactory-cli train \
    --stage dpo \
    --do_train True \
    --model_name_or_path ~/TinyMistral-248M-Chat \
    --preprocessing_num_workers $(python -c "import os; print(max(1, os.cpu_count() - 2))") \
    --dataloader_num_workers $(python -c "import os; print(max(1, os.cpu_count() - 2))") \
    --finetuning_type full \
    --flash_attn auto \
    --enable_liger_kernel True \
    --dataset_dir data \
    --dataset ultrafeedback \
    --cutoff_len 1024 \
    --learning_rate 1e-6 \
    --num_train_epochs 2.0 \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type linear \
    --max_grad_norm 1.0 \
    --logging_steps 10 \
    --save_steps 50 \
    --save_total_limit 1 \
    --warmup_ratio 0.1 \
    --packing False \
    --report_to tensorboard \
    --output_dir ~/TinyMistral-248M-Chat-v4 \
    --pure_bf16 True \
    --plot_loss True \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --include_tokens_per_second True \
    --include_num_input_tokens_seen True \
    --optim adamw_8bit \
    --pref_beta 0.5 \
    --pref_ftx 0 \
    --pref_loss simpo \
    --gradient_checkpointing True