🚀 3100万参数的Pythia聊天模型
本项目是一个基于3100万参数的Pythia聊天模型,它以特定的基础模型为依托,可用于文本生成任务,在职业咨询、量子计算应用探讨、健康建议等多领域提供帮助。
🚀 快速开始
基础信息
推荐的提示格式
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{user_message}<|im_end|>
<|im_start|>assistant
推荐的推理参数
penalty_alpha: 0.5
top_k: 2
repetition_penalty: 1.0016
✨ 主要特性
- 多领域适用:可用于职业咨询、量子计算应用探讨、健康建议等多种场景。
- 多格式支持:提供GGUF和ONNX等多种机器学习格式。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
高级用法
📚 详细文档
训练使用的数据集和参数
训练代码示例
SFTTrainer(
model,
train_dataset=train_dataset,
dataset_text_field="text",
eval_dataset=eval_dataset,
max_seq_length=2048,
packing=True,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=16,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=10,
eval_steps=10,
save_steps=10,
warmup_steps=50,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.01,
save_total_limit=10,
neftune_noise_alpha=5,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
DPOTrainer(
model,
beta=0.1,
train_dataset=dataset,
tokenizer=tokenizer,
eval_dataset=eval_dataset,
max_length=1536,
max_prompt_length=1024,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=1,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=1,
eval_steps=1,
save_steps=1,
warmup_steps=0,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.0,
neftune_noise_alpha=5,
remove_unused_columns=False,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
详细结果可查看此处
指标 |
值 |
平均值 |
19.92 |
AI2推理挑战(25次少样本) |
22.70 |
HellaSwag(10次少样本) |
25.60 |
MMLU(5次少样本) |
23.24 |
TruthfulQA(0次少样本) |
0.00 |
Winogrande(5次少样本) |
47.99 |
GSM8k(5次少样本) |
0.00 |
🔧 技术细节
文档未提供具体技术细节,暂不展示。
📄 许可证
本项目采用Apache - 2.0许可证。