Doge-160Mオープンソース小型言語モデル - 複数のテキスト生成タスクを無料でサポート

Home

Doge 160M

Developed by SmallDoge

Doge 160M は動的マスクアテンションメカニズムを採用した小型言語モデルで、SmallDoge コミュニティによってトレーニングされ、テキスト生成タスクをサポートします。

大規模言語モデル

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #動的マスクアテンション #小型言語モデル #効率的な推論

Downloads 4,227

Release Time : 2/15/2025

Model Overview

Doge 160M は Transformer アーキテクチャに基づく小型言語モデルで、動的マスクアテンションメカニズムを使用してシーケンス変換を行い、多層パーセプトロンまたはクロスドメインエキスパート混合を使用して状態変換を行うことができます。このモデルはテキスト生成タスクに適しており、複数のベンチマークテストで優れたパフォーマンスを発揮します。

Model Features

動的マスクアテンションメカニズム

Transformerがトレーニング時に自己アテンションメカニズムを使用し、推論時に状態空間を使用できるようにし、効率を向上させます。

クロスドメインエキスパート混合

多層パーセプトロンの重みを直接継承してさらなるトレーニングを行うことができ、モデルの性能を向上させます。

効率的なトレーニング

RTX 4090 GPUでわずか522時間でトレーニングを完了し、リソースが限られた環境に適しています。

Model Capabilities

テキスト生成

自然言語処理

Use Cases

テキスト生成

対話生成

自然な対話応答を生成するために使用されます。

TriviaQAやHellaSwagなどのベンチマークテストで良好なパフォーマンスを示します。

コンテンツ作成

ソーシャルメディアの投稿や短い記事などの短いテキストコンテンツを生成するために使用されます。

🚀 Doge 160M

Dogeは、シーケンス変換にDynamic Mask Attentionを使用し、状態変換にMulti-Layer PerceptronまたはCross Domain Mixture of Expertsを使用することができます。Dynamic Mask Attentionにより、Transformerはトレーニング中にセルフアテンションを、推論中に状態空間を使用することができ、Cross Domain Mixture of ExpertsはMulti-Layer Perceptronの重みを直接引き継いでさらなるトレーニングを行うことができます。このモデルはSmallDogeコミュニティによってトレーニングされており、詳細なアルゴリズムとモデルアーキテクチャについては近日論文が公開されます。すべてのトレーニング詳細とコードはsmall-dogeリポジトリにあります。

🚀 クイックスタート

Dogeモデルを使用するための基本的なコード例を以下に示します。

💻 使用例

基本的な使用法

>>> from transformers import AutoTokenizer, AutoModelForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-160M")
>>> model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-160M", trust_remote_code=True)
>>> inputs = tokenizer("Hey how are you doing?", return_tensors="pt")

>>> out = model.generate(**inputs, max_new_tokens=100)
>>> print(tokenizer.batch_decode(out))

📚 ドキュメント

モデルの詳細

DogeはSmollm-Corpusを使って事前学習を行って構築されています。このモデルをさらに事前学習したい場合は、収束していないチェックポイントをここで見つけることができます。これらのモデルは命令に対してファインチューニングされておらず、命令モデルはここにあります。

事前学習

モデル	トレーニングデータ	ステップ数	コンテンツ長	トークン数	学習率	バッチサイズ	精度	RTX 4090 GPU時間
Doge-20M	smollm-corpus	8k	2048	4B	8e-3	0.5M	bfloat16	14
Doge-60M	smollm-corpus	16k	2048	16B	6e-3	1M	bfloat16	128
Doge-160M	smollm-corpus	24k	2048	32B	4e-3	1.5M	bfloat16	522
Doge-320M	smollm-corpus	32k	2048	64B	2e-3	2M	bfloat16	1856

評価

モデル	MMLU	TriviaQA	ARC	PIQA	HellaSwag	OBQA	Winogrande	i7 - 11 CPUでのトークン/秒
Doge-20M	25.4	0.03	29.8	58.4	27.3	25.6	50.2	142
Doge-60M	26.4	0.2	37.9	61.4	31.5	28.0	50.8	62
Doge-160M	29.2	4.8	44.4	70.1	43.4	34.4	52.2	28
Doge-320M	35.6	9.4	55.4	73.9	52.7	37.9	59.3	16

手順

環境

イメージ: nvcr.io/nvidia/pytorch:24.12-py3
ハードウェア: 1x NVIDIA RTX 4090
ソフトウェア: Transformers

🔧 技術詳細

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下でライセンスされています。

引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}