DiffLlama-1B開源大語言模型 - 基於差分架構實現高效智能問答交流

首頁

Diffllama 1B

由kajuma開發

DiffLlama-1B 是一個從零開始預訓練約1000億標記、參數規模約10億的大語言模型，創新性地採用了'差分Transformer'架構理念。

大型語言模型

Safetensors

日語開源協議:Apache-2.0 #差分注意力機制 #日語文本生成 #高效訓練優化

下載量 202

發布時間 : 3/29/2025

模型概述

該模型通過將差分注意力機制融入Llama模型框架，實現了對關鍵上下文信息的精準聚焦與噪聲抑制，適用於日語文本生成任務。

模型特點

差分注意力機制

創新性地將差分注意力機制融入Llama模型框架，實現對關鍵上下文信息的精準聚焦與噪聲抑制

高效訓練技術

採用分塊訓練方法和μ子優化器，訓練效率提升2倍（等效2000億標記訓練）

大規模預訓練

基於約1000億標記的高質量日語教育數據進行單輪預訓練

模型能力

日語文本生成

上下文理解

長文本處理

使用案例

教育領域

日語學習輔助

生成日語學習材料和練習題

可提供符合教育場景的高質量日語文本

內容創作

日語內容生成

自動生成日語文章、故事等創意內容

🚀 DiffLlama-1B

DiffLlama-1B是一個約10億參數的大規模語言模型，它從0開始進行了約1000億token的預訓練。該模型引入了針對傳統Transformer架構改進而提出的“差分Transformer（Differential Transformer）”概念。特別是通過將差分注意力（Differential Attention）機制應用於Llama模型，它能夠將注意力集中在相關性高的上下文上，從而減少噪聲干擾。

✨ 主要特性

架構：將差分注意力（Differential Attention）機制集成到Llama模型中。
參數數量：10億（1B）參數。
Patch級訓練：使用了降低訓練成本的技術Patch級訓練。
Muon優化器：使用比AdamW收斂更快的優化器，將訓練效率提高了一倍（即實際上相當於進行了2000億token的訓練）。具體實現請參考此處。

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

💻 使用示例

基礎用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed

model = AutoModelForCausalLM.from_pretrained("kajuma/DiffLlama-1B", torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("kajuma/DiffLlama-1B")
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)

text = generator(
    "おはようございます、今日の天気は",
    max_length=30,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    num_return_sequences=3,
)
for t in text:
    print(t)