Doge-20M-Instructオープンソース小型言語モデル - 無料でご利用いただけ、命令追従と質疑応答に対応！

ホーム

Doge 20M Instruct

SmallDogeによって開発

Doge 20Mは動的マスクアテンション機構に基づく小型言語モデルで、命令追従と質問応答タスクをサポートします。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #動的マスクアテンション #小型言語モデル #命令微調整

ダウンロード数 5,010

リリース時間 : 12/14/2024

モデル概要

Dogeは動的マスクアテンション機構を用いてシーケンス変換を行い、多層パーセプトロンまたはクロスドメインミックスドエキスパートを使用して状態変換が可能です。このモデルはSmolTalkデータセットで教師あり微調整(SFT)を行い、その後UltraFeedback Binarizedデータセットで直接選好最適化(DPO)トレーニングを行いました。

モデル特徴

動的マスクアテンション機構

Transformerがトレーニング時に自己注意機構を使用し、推論時に状態空間を使用できるようにする

クロスドメインミックスドエキスパート

多層パーセプトロンの重みを直接継承してさらなるトレーニングが可能

効率的な推論

i7-11世代CPUで142トークン/秒の推論速度を達成

モデル能力

命令追従

質問応答生成

テキスト生成

使用事例

対話システム

日常会話

チャットボットを構築して日常会話に使用

質問応答システム

知識質問応答

ユーザーが提出する様々な質問に回答するために使用

🚀 Doge 20M Instruct

Doge 20M Instructは、質問応答タスクに特化したモデルです。Dynamic Mask Attentionをシーケンス変換に用い、Multi-Layer PerceptronやCross Domain Mixture of Expertsを状態変換に使用することができます。このモデルはSmallDogeコミュニティによって開発されています。

🚀 クイックスタート

DogeはDynamic Mask Attentionをシーケンス変換として使用し、Multi-Layer PerceptronまたはCross Domain Mixture of Expertsを状態変換として使用することができます。Dynamic Mask Attentionにより、Transformerはトレーニング中にセルフアテンションを使用し、推論中に状態空間を使用することができます。また、Cross Domain Mixture of ExpertsはMulti-Layer Perceptronの重みを直接引き継いでさらなるトレーニングを行うことができます。このモデルはSmallDogeコミュニティによってトレーニングされており、詳細なアルゴリズムとモデルアーキテクチャについては近日中に論文が公開されます。すべてのトレーニング詳細とコードはsmall-dogeリポジトリにあります。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("SmallDoge/Doge-20M-Instruct")
model = AutoModelForCausalLM.from_pretrained("SmallDoge/Doge-20M-Instruct", trust_remote_code=True)

generation_config = GenerationConfig(
      max_new_tokens=100, 
      use_cache=True, 
      do_sample=True, 
      temperature=0.8, 
      top_p=0.9,
      repetition_penalty=1.0
)
steamer = TextStreamer(
      tokenizer=tokenizer, 
      skip_prompt=True
)

prompt = "Hi, how are you doing today?"
conversation = [
      {"role": "user", "content": prompt}
]
inputs = tokenizer.apply_chat_template(
    conversation=conversation,
    tokenize=True,
    return_tensors="pt",
)

outputs = model.generate(
    inputs, 
    tokenizer=tokenizer,
    generation_config=generation_config, 
    streamer=steamer
)

📚 ドキュメント

モデルの詳細

Doge-Instructは、まずSmolTalkでSFTを行い、次にUltraFeedback BinarizedでDPOを行うことで構築されています。

SFT:

モデル	トレーニングデータ	エポック数	コンテンツ長	学習率	バッチサイズ	精度
Doge-20M-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-20M-MoE-Instruct-SFT	smoltalk	2	2048	8e-4	0.25M	bfloat16
Doge-60M-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-120M-MoE-Instruct-SFT	smoltalk	2	2048	6e-4	0.25M	bfloat16
Doge-160M-Instruct-SFT	smoltalk	2	2048	4e-4	0.25M	bfloat16
Doge-320M-Instruct-SFT	smoltalk	2	2048	2e-4	0.25M	bfloat16

DPO:

モデル	トレーニングデータ	エポック数	コンテンツ長	学習率	バッチサイズ	精度
Doge-20M-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-20M-MoE-Instruct	ultrafeedback_binarized	2	1024	8e-5	0.125M	bfloat16
Doge-60M-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-120M-MoE-Instruct	ultrafeedback_binarized	2	1024	6e-5	0.125M	bfloat16
Doge-160M-Instruct	ultrafeedback_binarized	2	1024	4e-5	0.125M	bfloat16
Doge-320M-Instruct	ultrafeedback_binarized	2	1024	2e-5	0.125M	bfloat16

評価:

モデル	IFEval (Prompt Strict Acc)	MMLU	BBH	ARC	PIQA	HellaSwag	i7 - 11 CPUでのトークン/秒
Doge-20M-Instruct	9.2	26.3	18.3	29.2	57.8	27.8	142
Doge-20M-MoE-Instruct	13.7	26.5	26.3	31.1	58.2	27.9	132
Doge-60M-Instruct	9.4	27.5	27.7	37.5	61.4	32.1	62
Doge-120M-MoE-Instruct	24.4	28.2	30.1	44.2	62.1	36.3	58
Doge-160M-Instruct	16.8	29.7	29.1	42.8	64.1	37.1	28
Doge-320M-Instruct	28.5	30.3	31.9	51.7	71.0	50.6	16

手順:

SFT:

DPO:

環境:

イメージ: nvcr.io/nvidia/pytorch:24.12 - py3
ハードウェア: 1x NVIDIA RTX 4090
ソフトウェア: Transformers, TRL

📄 ライセンス

このプロジェクトはApache - 2.0ライセンスの下でライセンスされています。詳細については、LICENSEを参照してください。

📖 引用

@misc{smalldoges,
  title={SmallDoges: A Family of Dynamic UltraFast Small Language Models}, 
  author={Jingze, Shi and Yifan, Wu and Bingheng, Wu and Yuyu, Luo},
  year={2025},
  month={March},
  url={https://github.com/SmallDoges/small-doge}
}