Doge-20M-Instruct開源小語言模型 - 免費使用，支持指令跟隨與問答！

首頁

Doge 20M Instruct

由SmallDoge開發

Doge 20M 是一個基於動態掩碼注意力機制的小型語言模型，支持指令跟隨和問答任務。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #動態掩碼注意力 #小型語言模型 #指令微調

下載量 5,010

發布時間 : 12/14/2024

模型概述

Doge採用動態掩碼注意力機制進行序列轉換，並可使用多層感知機或跨域混合專家進行狀態轉換。該模型在SmolTalk數據集上進行監督微調(SFT)，然後在UltraFeedback Binarized數據集上進行直接偏好優化(DPO)訓練。

模型特點

動態掩碼注意力機制

使Transformer能在訓練時使用自注意力機制，在推理時使用狀態空間

跨域混合專家

可直接繼承多層感知機的權重進行進一步訓練

高效推理

在i7-11代CPU上達到142 tokens/秒的推理速度

模型能力

指令跟隨

問答生成

文本生成

使用案例

對話系統

日常對話

用於構建聊天機器人進行日常對話

問答系統

知識問答

用於回答用戶提出的各種問題

🚀 Doge 20M Instruct

Doge 20M Instruct 模型採用動態掩碼注意力進行序列轉換，在訓練時使用自注意力機制，推理時採用狀態空間方法。同時，它可以使用多層感知機或跨域專家混合模型進行狀態轉換，且跨域專家混合模型能直接繼承多層感知機的權重以進行進一步訓練。該模型由 SmallDoge 社區訓練，詳細的算法和模型架構相關論文即將發佈，所有訓練細節和代碼可在 small-doge 倉庫中查看。

🚀 快速開始

Doge 採用動態掩碼注意力進行序列轉換，可使用多層感知機或跨域專家混合模型進行狀態轉換。動態掩碼注意力使 Transformer 能在訓練時使用自注意力機制，在推理時使用狀態空間方法，而跨域專家混合模型可直接繼承多層感知機的權重進行進一步訓練。此模型由 SmallDoge 社區訓練，詳細的算法和模型架構相關論文即將推出，所有訓練細節和代碼可在 small-doge 倉庫中獲取。

✨ 主要特性

獨特的注意力機制：動態掩碼注意力允許 Transformer 在訓練和推理階段採用不同的機制，提高效率和性能。
靈活的狀態轉換：可選擇多層感知機或跨域專家混合模型進行狀態轉換，且跨域專家混合模型能繼承多層感知機的權重。
社區驅動開發：由 SmallDoge 社區訓練和維護。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-20M-Instruct")
model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-20M-Instruct", trust_remote_code=True)

generation_config = GenerationConfig(
      max_new_tokens=100, 
      use_cache=True, 
      do_sample=True, 
      temperature=0.8, 
      top_p=0.9,
      repetition_penalty=1.0
)
steamer = TextStreamer(
      tokenizer=tokenizer, 
      skip_prompt=True
)

prompt = "Hi, how are you doing today?"
conversation = [
      {"role": "user", "content": prompt}
]
inputs = tokenizer.apply_chat_template(
    conversation=conversation,
    tokenize=True,
    return_tensors="pt",
)

outputs = model.generate(
    inputs, 
    tokenizer=tokenizer,
    generation_config=generation_config, 
    streamer=steamer
)

📚 詳細文檔

模型訓練

我們通過在 SmolTalk 上進行有監督微調（SFT），然後在 UltraFeedback Binarized 上進行直接偏好優化（DPO）來構建 Doge-Instruct 模型。

SFT 訓練詳情

模型	訓練數據	輪數	內容長度	學習率	批次大小	精度
Doge-20M-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-20M-MoE-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-60M-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-120M-MoE-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-160M-Instruct-SFT	smoltalk	2	2048	4e-4	0.25M	bfloat16
Doge-320M-Instruct-SFT	smoltalk	2	2048	2e-4	0.25M	bfloat16

DPO 訓練詳情

模型	訓練數據	輪數	內容長度	學習率	批次大小	精度
Doge-20M-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-20M-MoE-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-60M-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-120M-MoE-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-160M-Instruct	ultrafeedback_binarized	2	1024	4e-5	0.125M	bfloat16
Doge-320M-Instruct	ultrafeedback_binarized	2	1024	2e-5	0.125M	bfloat16

模型評估

模型	IFEval（提示嚴格準確率）	MMLU	BBH	ARC	PIQA	HellaSwag	i7 - 11 CPU 上的每秒令牌數
Doge-20M-Instruct	9.2	26.3	18.3	29.2	57.8	27.8	142
Doge-20M-MoE-Instruct	13.7	26.5	26.3	31.1	58.2	27.9	132
Doge-60M-Instruct	9.4	27.5	27.7	37.5	61.4	32.1	62
Doge-120M-MoE-Instruct	24.4	28.2	30.1	44.2	62.1	36.3	58
Doge-160M-Instruct	16.8	29.7	29.1	42.8	64.1	37.1	28
Doge-320M-Instruct	28.5	30.3	31.9	51.7	71.0	50.6	16

訓練過程可視化

SFT：
DPO：

訓練環境

鏡像：nvcr.io/nvidia/pytorch:24.12 - py3
硬件：1x NVIDIA RTX 4090
軟件：Transformers, TRL

🔧 技術細節

該模型使用動態掩碼注意力進行序列轉換，可選擇多層感知機或跨域專家混合模型進行狀態轉換。動態掩碼注意力使 Transformer 在訓練和推理階段採用不同的機制，提高了效率和性能。跨域專家混合模型能夠直接繼承多層感知機的權重，便於進一步訓練。

📄 許可證

本項目採用 Apache - 2.0 許可證。

📚 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}