Doge-320M開源AI模型 - 助力序列與狀態轉換處理，免費又實用！

Home

Doge 320M

Developed by SmallDoge

Doge是一個採用動態掩碼注意力機制進行序列轉換的模型，可使用多層感知器或跨域專家混合進行狀態轉換。

大型語言模型

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #動態掩碼注意力 #小規模高效訓練 #多領域狀態轉換

Downloads 3,028

Release Time : 3/10/2025

Model Overview

Doge模型由SmallDoge社區訓練，支持文本生成任務，採用動態掩碼注意力機制，在訓練時使用自注意力機制，在推理時使用狀態空間機制。

Model Features

動態掩碼注意力機制

允許Transformer在訓練時使用自注意力機制，在推理時使用狀態空間機制。

跨域專家混合

可直接繼承多層感知器的權重進行進一步訓練。

高效訓練

在RTX 4090 GPU上進行了高效訓練，訓練時間相對較短。

Model Capabilities

文本生成

序列轉換

Use Cases

自然語言處理

對話生成

可用於生成自然語言對話響應。

生成流暢的對話內容

內容創作

可用於輔助寫作和內容創作。

生成連貫的文本內容

🚀 Doge 320M

Doge 320M 模型採用動態掩碼注意力進行序列轉換，可使用多層感知機或跨域專家混合體進行狀態轉換。該模型由 SmallDoge 社區訓練，能在訓練時使用自注意力機制，推理時使用狀態空間，跨域專家混合體還可繼承多層感知機的權重進一步訓練。

🚀 快速開始

Doge 320M 模型採用動態掩碼注意力（Dynamic Mask Attention）進行序列轉換，可選用多層感知機（Multi - Layer Perceptron）或跨域專家混合體（Cross Domain Mixture of Experts）進行狀態轉換。動態掩碼注意力使 Transformer 能在訓練時使用自注意力機制，推理時使用狀態空間；跨域專家混合體可直接繼承多層感知機的權重進行進一步訓練。此模型由 SmallDoge 社區訓練，詳細的算法和模型架構相關論文即將發佈，所有訓練細節和代碼可在 small - doge 倉庫中獲取。

✨ 主要特性

創新的注意力機制：動態掩碼注意力允許模型在訓練和推理階段採用不同策略，提升效率。
靈活的狀態轉換：可選擇多層感知機或跨域專家混合體，且跨域專家混合體可繼承多層感知機權重。
社區驅動開發：由 SmallDoge 社區訓練，保證模型的持續優化和更新。

💻 使用示例

基礎用法

>>> from transformers import AutoTokenizer, AutoModelForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-320M")
>>> model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-320M", trust_remote_code=True)
>>> inputs = tokenizer("Hey how are you doing?", return_tensors="pt")

>>> out = model.generate(**inputs, max_new_tokens=100)
>>> print(tokenizer.batch_decode(out))

📚 詳細文檔

模型詳情

我們通過在 Smollm - Corpus 上進行預訓練構建了 Doge 模型。若你想繼續對該模型進行預訓練，可在此處找到未收斂的檢查點。這些模型尚未針對指令進行微調，指令模型可在此處找到。

預訓練信息

屬性	詳情
模型類型	Doge 系列模型，包括 Doge - 20M、Doge - 60M、Doge - 160M 和 Doge - 320M
訓練數據	smollm - corpus

模型	訓練數據	步數	內容長度	標記數	學習率	批量大小	精度	RTX 4090 GPU 小時數
Doge - 20M	smollm - corpus	8k	2048	4B	8e - 3	0.5M	bfloat16	14
Doge - 60M	smollm - corpus	16k	2048	16B	6e - 3	1M	bfloat16	128
Doge - 160M	smollm - corpus	24k	2048	32B	4e - 3	1.5M	bfloat16	522
Doge - 320M	smollm - corpus	32k	2048	64B	2e - 3	2M	bfloat16	1856

評估信息

模型	MMLU	TriviaQA	ARC	PIQA	HellaSwag	OBQA	Winogrande	i7 - 11 CPU 上的標記數/秒
Doge - 20M	25.4	0.03	29.8	58.4	27.3	25.6	50.2	142
Doge - 60M	26.4	0.2	37.9	61.4	31.5	28.0	50.8	62
Doge - 160M	29.2	4.8	44.4	70.1	43.4	34.4	52.2	28
Doge - 320M	35.6	9.4	55.4	73.9	52.7	37.9	59.3	16

訓練流程

訓練環境

鏡像：nvcr.io/nvidia/pytorch:24.12 - py3
硬件：1x NVIDIA RTX 4090
軟件：Transformers

📄 許可證

本項目採用 Apache - 2.0 許可證。

📚 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}