DiffLlama-1Bオープンソース大規模言語モデル - 差分アーキテクチャに基づく高効率な知的質問応答交流の実現

ホーム

Diffllama 1B

kajumaによって開発

DiffLlama-1Bは、ゼロから約1000億トークンを事前学習した約10億パラメータ規模の大規模言語モデルで、革新的な'差分Transformer'アーキテクチャの概念を採用しています。

大規模言語モデル

Safetensors

日本語オープンソースライセンス:Apache-2.0 #差分注意メカニズム #日本語テキスト生成 #効率的なトレーニング最適化

ダウンロード数 202

リリース時間 : 3/29/2025

モデル概要

このモデルは、差分注意メカニズムをLlamaモデルフレームワークに組み込むことで、重要なコンテキスト情報への正確な焦点合わせとノイズ抑制を実現し、日本語テキスト生成タスクに適しています。

モデル特徴

差分注意メカニズム

Llamaモデルフレームワークに差分注意メカニズムを革新的に組み込み、重要なコンテキスト情報への正確な焦点合わせとノイズ抑制を実現

効率的なトレーニング技術

チャンクトレーニング手法とμ子オプティマイザを採用し、トレーニング効率を2倍向上（2000億トークン相当のトレーニング）

大規模事前学習

約1000億トークンの高品質な日本語教育データに基づく単一ラウンドの事前学習

モデル能力

日本語テキスト生成

コンテキスト理解

長文処理

使用事例

教育分野

日本語学習支援

日本語学習教材と練習問題を生成

教育シナリオに適した高品質な日本語テキストを提供可能

コンテンツ作成

日本語コンテンツ生成

日本語の記事やストーリーなどのクリエイティブコンテンツを自動生成

🚀 DiffLlama-1B

DiffLlama-1Bは、フルスクラッチで約100Bトークン事前学習を行った約1Bパラメータの大規模言語モデルです。このモデルは、「Differential Transformer」の概念を取り入れ、Differential AttentionメカニズムをLlamaモデルに適用することで、注意力を関連性の高いコンテキストに向け、ノイズを低減することができます。

✨ 主な機能

アーキテクチャ: LlamaモデルにDifferential Attentionメカニズムを統合。
パラメータ数: 10億（1B）パラメータ。
Patch-level Training: 学習コスト削減技術Patch-level Trainingを使用。
Muon Optimizer: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に(つまり実質200Bトークン学習している)。実装はこちら

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed

model = AutoModelForCausalLM.from_pretrained("kajuma/DiffLlama-1B", torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("kajuma/DiffLlama-1B")
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)

text = generator(
    "おはようございます、今日の天気は",
    max_length=30,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    num_return_sequences=3,
)
for t in text:
    print(t)

高度な使用法

このREADMEに高度な使用法に関するコード例が記載されていないため、このサブセクションをスキップします。

📚 ドキュメント

学習データ

DiffLlama-1Bは以下のデータセットを用いて、合計約1000億（100B）トークンで1エポックの学習を行いました。

属性	详情
モデルタイプ	大規模言語モデル
学習データ	- hotchpotch/fineweb-2-edu-japanese: 約900億（90B）トークン。 - HuggingFaceFW/fineweb-edu: 約100億（10B）トークン。