Pythia-31M-Chat-v1開源對話模型 - 免費支持多輪對話及多種任務場景

首頁

Pythia 31M Chat V1

由Felladrin開發

基於EleutherAI/pythia-31m微調的3100萬參數對話模型，支持多輪對話和多種任務場景

大型語言模型

Transformers

英語開源協議:Apache-2.0 #輕量級對話模型 #多領域諮詢 #職業發展指導

下載量 1,532

發布時間 : 1/6/2024

模型概述

這是一個基於Pythia-31m微調的對話模型，專注於文本生成任務，能夠處理職業諮詢、知識問答等多種對話場景。

模型特點

多場景對話支持

經過多種對話數據集微調，能夠處理職業諮詢、知識問答等多種對話場景

輕量級模型

僅3100萬參數，適合資源有限的環境部署

多格式支持

提供GGUF和ONNX等多種格式，便於不同平臺部署

模型能力

多輪對話

職業諮詢

知識問答

健康建議

技術解釋

使用案例

職業諮詢

軟件開發職業指導

為對軟件開發感興趣的用戶提供職業發展建議

知識問答

量子計算應用解釋

回答關於量子計算潛在應用的問題

健康建議

健康生活方式建議

提供成為更健康人士的步驟建議

🚀 3100萬參數的Pythia聊天模型

本項目是一個基於3100萬參數的Pythia聊天模型，它以特定的基礎模型為依託，可用於文本生成任務，在職業諮詢、量子計算應用探討、健康建議等多領域提供幫助。

🚀 快速開始

基礎信息

基礎模型：EleutherAI/pythia - 31m
其他機器學習格式的可用版本：
- GGUF：Felladrin/gguf - Pythia - 31M - Chat - v1
- ONNX：Felladrin/onnx - Pythia - 31M - Chat - v1

✨ 主要特性

多領域適用：可用於職業諮詢、量子計算應用探討、健康建議等多種場景。
多格式支持：提供GGUF和ONNX等多種機器學習格式。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

# 這裡可以根據實際情況添加調用模型的基礎代碼示例
# 例如使用基礎提示格式進行文本生成

高級用法

# 這裡可以根據實際情況添加更復雜的使用場景代碼示例
# 例如結合推理參數進行文本生成

📚 詳細文檔

訓練使用的數據集和參數

數據集	許可證類型
totally - not - an - llm/EverythingLM - data - V3	mit
databricks/databricks - dolly - 15k	cc - by - sa - 3.0
THUDM/webglm - qa	apache - 2.0
starfishmedical/webGPT_x_dolly	cc - by - sa - 3.0
Amod/mental_health_counseling_conversations	openrail
sablo/oasst2_curated	apache - 2.0
cognitivecomputations/wizard_vicuna_70k_unfiltered	apache - 2.0
mlabonne/chatml_dpo_pairs	apache - 2.0

訓練代碼示例

SFTTrainer(
    model,
    train_dataset=train_dataset,
    dataset_text_field="text",
    eval_dataset=eval_dataset,
    max_seq_length=2048,
    packing=True,
    args=TrainingArguments(
        learning_rate=2e-6,
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        gradient_accumulation_steps=16,
        lr_scheduler_type="cosine",
        num_train_epochs=1,
        logging_strategy="steps",
        save_strategy="steps",
        evaluation_strategy="steps",
        logging_steps=10,
        eval_steps=10,
        save_steps=10,
        warmup_steps=50,
        load_best_model_at_end=True,
        metric_for_best_model="eval_loss",
        greater_is_better=False,
        weight_decay=0.01,
        save_total_limit=10,
        neftune_noise_alpha=5,
    ),
    callbacks=[
        EarlyStoppingCallback(
            early_stopping_patience=3,
            early_stopping_threshold=0.005
        ),
    ],
)

DPOTrainer(
    model,
    beta=0.1,
    train_dataset=dataset,
    tokenizer=tokenizer,
    eval_dataset=eval_dataset,
    max_length=1536,
    max_prompt_length=1024,
    args=TrainingArguments(
        learning_rate=2e-6,
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        gradient_accumulation_steps=1,
        lr_scheduler_type="cosine",
        num_train_epochs=1,
        logging_strategy="steps",
        save_strategy="steps",
        evaluation_strategy="steps",
        logging_steps=1,
        eval_steps=1,
        save_steps=1,
        warmup_steps=0,
        load_best_model_at_end=True,
        metric_for_best_model="eval_loss",
        greater_is_better=False,
        weight_decay=0.0,
        neftune_noise_alpha=5,
        remove_unused_columns=False,
    ),
    callbacks=[
        EarlyStoppingCallback(
            early_stopping_patience=3,
            early_stopping_threshold=0.005
        ),
    ],
)

Open LLM Leaderboard評估結果

詳細結果可查看此處

指標	值
平均值	19.92
AI2推理挑戰（25次少樣本）	22.70
HellaSwag（10次少樣本）	25.60
MMLU（5次少樣本）	23.24
TruthfulQA（0次少樣本）	0.00
Winogrande（5次少樣本）	47.99
GSM8k（5次少樣本）	0.00