Minueza-2-96M開源語言模型 - 支持英葡雙語，長文本流暢交流

首頁

Minueza 2 96M

由Felladrin開發

基於Llama架構的緊湊型語言模型，支持英語和葡萄牙語，參數規模9600萬，支持4096個token的上下文長度。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #微型語言模型 #雙語言支持 #移動端優化

下載量 357

發布時間 : 4/5/2025

模型概述

從零開始訓練的輕量級基礎模型，可作為後續特定應用微調的基石。雖然推理能力和知識有限，但適合在資源受限環境中使用。

模型特點

緊湊高效

僅9600萬參數的小型模型，適合在無GPU設備或移動端運行

雙語支持

同時支持英語和葡萄牙語文本生成

長上下文處理

支持4096個token的上下文窗口長度

微調友好

設計為可作為ChatML格式微調的基座模型

模型能力

文本生成

多語言處理

使用案例

移動端應用

瀏覽器內文本生成

通過Wllama和Transformers.js在移動端瀏覽器運行

實現輕量級的客戶端文本生成功能

資源受限環境

低功耗設備部署

在無GPU設備上高效運行

為邊緣設備提供基礎語言模型能力

🚀 Minueza-2-96M

Minueza-2-96M是一個基於Llama架構的緊湊型語言模型。它在英文和葡萄牙文數據集上從頭開始訓練，使用4096個標記的上下文長度，並在訓練過程中處理了1850億個標記。該模型僅有9600萬個參數，可作為輕量級基礎模型，後續可針對特定應用進行微調。

🚀 快速開始

安裝依賴

pip install transformers==4.50.0 torch==2.6.0

代碼示例

from transformers import pipeline, TextStreamer
import torch

prompt = "This book tells the story"

generate_text = pipeline(
    "text-generation",
    model="Felladrin/Minueza-2-96M",
    device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)

generate_text(
    prompt,
    streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
    do_sample=True,
    max_new_tokens=512,
    temperature=0.8,
    top_p=0.95,
    top_k=0,
    min_p=0.05,
    repetition_penalty=1.1,
)

✨ 主要特性

輕量級設計：參數僅9600萬，適合資源受限場景。
多語言支持：在英文和葡萄牙文數據集上訓練。
特定用途適配：可通過微調用於特定應用。

📦 安裝指南

pip install transformers==4.50.0 torch==2.6.0

💻 使用示例

基礎用法

from transformers import pipeline, TextStreamer
import torch

prompt = "This book tells the story"

generate_text = pipeline(
    "text-generation",
    model="Felladrin/Minueza-2-96M",
    device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)

generate_text(
    prompt,
    streamer=TextStreamer(generate_text.tokenizer, skip_special_tokens=True),
    do_sample=True,
    max_new_tokens=512,
    temperature=0.8,
    top_p=0.95,
    top_k=0,
    min_p=0.05,
    repetition_penalty=1.1,
)

📚 詳細文檔

預期用途

通過Wllama和Transformers.js在移動網頁瀏覽器上運行。
在無GPU的機器上快速運行。
作為使用ChatML格式進行微調的基礎模型。

模型架構

這是一個基於Llama架構的Transformer模型，訓練時使用4096個標記的上下文窗口。

屬性	詳情
最大位置嵌入	4096
隱藏層大小	672
中間層大小	2688
隱藏層數量	8
注意力頭數量	12
鍵值頭數量	4
頭維度	56
注意力丟棄率	0.1
詞表大小	32000
RoPE參數	500000

預訓練超參數

屬性	詳情
學習率	0.0003
熱身步數	2000
權重衰減	0.1
最大梯度範數	2.0
總訓練批次大小	512（每批次200萬個標記）
隨機種子	42
優化器	Adam（β1=0.9，β2=0.95，ε=1e-08）
學習率調度器類型	線性