Doge-320MオープンソースAIモデル - シーケンスと状態変換処理をサポート、無料で実用的！

ホーム

Doge 320M

SmallDogeによって開発

Dogeは動的マスクアテンションメカニズムを採用したシーケンス変換モデルで、多層パーセプトロンまたはクロスドメインエキスパート混合を使用して状態変換を行います。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #動的マスクアテンション #小規模効率的トレーニング #複数領域状態変換

ダウンロード数 3,028

リリース時間 : 3/10/2025

モデル概要

DogeモデルはSmallDogeコミュニティによってトレーニングされ、テキスト生成タスクをサポートし、動的マスクアテンションメカニズムを採用しています。トレーニング時には自己アテンションメカニズムを使用し、推論時には状態空間メカニズムを使用します。

モデル特徴

動的マスクアテンションメカニズム

Transformerがトレーニング時には自己アテンションメカニズムを使用し、推論時には状態空間メカニズムを使用できるようにします。

クロスドメインエキスパート混合

多層パーセプトロンの重みを直接継承してさらなるトレーニングを行うことができます。

効率的なトレーニング

RTX 4090 GPUで効率的にトレーニングされ、トレーニング時間が比較的短いです。

モデル能力

テキスト生成

シーケンス変換

使用事例

自然言語処理

対話生成

自然な対話応答を生成するために使用できます。

流暢な対話内容を生成

コンテンツ作成

執筆やコンテンツ作成の補助に使用できます。

一貫性のあるテキスト内容を生成

🚀 Doge 320M

Doge 320Mは、Dynamic Mask Attentionをシーケンス変換に用い、Multi - Layer PerceptronまたはCross Domain Mixture of Expertsを状態変換に使用できるモデルです。これにより、Transformerは学習時にセルフアテンションを、推論時に状態空間を活用できます。また、Cross Domain Mixture of ExpertsはMulti - Layer Perceptronの重みを直接引き継いでさらなる学習が可能です。このモデルはSmallDogeコミュニティによって学習されています。詳細なアルゴリズムとモデルアーキテクチャについては、近日論文が公開されます。すべての学習詳細とコードはsmall - dogeリポジトリにあります。

🚀 クイックスタート

Doge 320Mを使ったテキスト生成のコード例を以下に示します。

>>> from transformers import AutoTokenizer, AutoModelForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-320M")
>>> model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-320M", trust_remote_code=True)
>>> inputs = tokenizer("Hey how are you doing?", return_tensors="pt")

>>> out = model.generate(**inputs, max_new_tokens=100)
>>> print(tokenizer.batch_decode(out))

✨ 主な機能

Dynamic Mask Attentionを用いたシーケンス変換。学習時と推論時で異なる空間を活用できます。
Multi - Layer PerceptronまたはCross Domain Mixture of Expertsによる状態変換。Cross Domain Mixture of ExpertsはMulti - Layer Perceptronの重みを引き継げます。

📚 ドキュメント

モデルの詳細

DogeはSmollm - Corpusを用いて事前学習されています。このモデルをさらに事前学習したい場合は、未収束のチェックポイントをこちらで見つけることができます。これらのモデルは命令に対してファインチューニングされていません。命令モデルはこちらにあります。

事前学習

モデル	学習データ	ステップ	コンテンツ長	トークン	学習率	バッチサイズ	精度	RTX 4090 GPU時間
Doge - 20M	smollm - corpus	8k	2048	4B	8e - 3	0.5M	bfloat16	14
Doge - 60M	smollm - corpus	16k	2048	16B	6e - 3	1M	bfloat16	128
Doge - 160M	smollm - corpus	24k	2048	32B	4e - 3	1.5M	bfloat16	522
Doge - 320M	smollm - corpus	32k	2048	64B	2e - 3	2M	bfloat16	1856

評価

モデル	MMLU	TriviaQA	ARC	PIQA	HellaSwag	OBQA	Winogrande	i7 - 11 CPUでのトークン/秒
Doge - 20M	25.4	0.03	29.8	58.4	27.3	25.6	50.2	142
Doge - 60M	26.4	0.2	37.9	61.4	31.5	28.0	50.8	62
Doge - 160M	29.2	4.8	44.4	70.1	43.4	34.4	52.2	28
Doge - 320M	35.6	9.4	55.4	73.9	52.7	37.9	59.3	16

手順

環境

イメージ: nvcr.io/nvidia/pytorch:24.12 - py3
ハードウェア: 1x NVIDIA RTX 4090
ソフトウェア: Transformers

📄 ライセンス

このプロジェクトはApache - 2.0ライセンスの下で公開されています。

📖 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}