🚀 3100萬參數的Pythia聊天模型
本項目是一個基於3100萬參數的Pythia聊天模型,它以特定的基礎模型為依託,可用於文本生成任務,在職業諮詢、量子計算應用探討、健康建議等多領域提供幫助。
🚀 快速開始
基礎信息
推薦的提示格式
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{user_message}<|im_end|>
<|im_start|>assistant
推薦的推理參數
penalty_alpha: 0.5
top_k: 2
repetition_penalty: 1.0016
✨ 主要特性
- 多領域適用:可用於職業諮詢、量子計算應用探討、健康建議等多種場景。
- 多格式支持:提供GGUF和ONNX等多種機器學習格式。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
高級用法
📚 詳細文檔
訓練使用的數據集和參數
訓練代碼示例
SFTTrainer(
model,
train_dataset=train_dataset,
dataset_text_field="text",
eval_dataset=eval_dataset,
max_seq_length=2048,
packing=True,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=16,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=10,
eval_steps=10,
save_steps=10,
warmup_steps=50,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.01,
save_total_limit=10,
neftune_noise_alpha=5,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
DPOTrainer(
model,
beta=0.1,
train_dataset=dataset,
tokenizer=tokenizer,
eval_dataset=eval_dataset,
max_length=1536,
max_prompt_length=1024,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=1,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=1,
eval_steps=1,
save_steps=1,
warmup_steps=0,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.0,
neftune_noise_alpha=5,
remove_unused_columns=False,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
詳細結果可查看此處
指標 |
值 |
平均值 |
19.92 |
AI2推理挑戰(25次少樣本) |
22.70 |
HellaSwag(10次少樣本) |
25.60 |
MMLU(5次少樣本) |
23.24 |
TruthfulQA(0次少樣本) |
0.00 |
Winogrande(5次少樣本) |
47.99 |
GSM8k(5次少樣本) |
0.00 |
🔧 技術細節
文檔未提供具體技術細節,暫不展示。
📄 許可證
本項目採用Apache - 2.0許可證。