🚀 3100万パラメータのPythiaチャットモデル
このモデルは、自然言語処理におけるテキスト生成タスクに特化しており、様々なデータセットを用いて訓練され、ソフトウェアエンジニアリングのキャリア相談や量子コンピューティングの応用例など、幅広い質問に回答できます。
🚀 クイックスタート
ベースモデル
他のML形式での利用可能性
✨ 主な機能
- テキスト生成タスクに特化した高性能モデルです。
- 様々なデータセットを用いて訓練されており、幅広い質問に回答できます。
- キャリアカウンセリングや量子コンピューティングの応用例など、特定の分野に関する質問にも対応します。
💻 使用例
基本的な使用法
SFTTrainer(
model,
train_dataset=train_dataset,
dataset_text_field="text",
eval_dataset=eval_dataset,
max_seq_length=2048,
packing=True,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=16,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=10,
eval_steps=10,
save_steps=10,
warmup_steps=50,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.01,
save_total_limit=10,
neftune_noise_alpha=5,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
高度な使用法
DPOTrainer(
model,
beta=0.1,
train_dataset=dataset,
tokenizer=tokenizer,
eval_dataset=eval_dataset,
max_length=1536,
max_prompt_length=1024,
args=TrainingArguments(
learning_rate=2e-6,
per_device_train_batch_size=1,
per_device_eval_batch_size=1,
gradient_accumulation_steps=1,
lr_scheduler_type="cosine",
num_train_epochs=1,
logging_strategy="steps",
save_strategy="steps",
evaluation_strategy="steps",
logging_steps=1,
eval_steps=1,
save_steps=1,
warmup_steps=0,
load_best_model_at_end=True,
metric_for_best_model="eval_loss",
greater_is_better=False,
weight_decay=0.0,
neftune_noise_alpha=5,
remove_unused_columns=False,
),
callbacks=[
EarlyStoppingCallback(
early_stopping_patience=3,
early_stopping_threshold=0.005
),
],
)
📚 ドキュメント
推奨プロンプトフォーマット
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{user_message}<|im_end|>
<|im_start|>assistant
推奨推論パラメータ
penalty_alpha: 0.5
top_k: 2
repetition_penalty: 1.0016
訓練に使用されたデータセットとパラメータ
詳細な結果はこちらで確認できます。
メトリック |
値 |
平均 |
19.92 |
AI2 Reasoning Challenge (25-Shot) |
22.70 |
HellaSwag (10-Shot) |
25.60 |
MMLU (5-Shot) |
23.24 |
TruthfulQA (0-shot) |
0.00 |
Winogrande (5-shot) |
47.99 |
GSM8k (5-shot) |
0.00 |
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。