Minueza-32M-Base開源文本生成模型 - 基於英文語料打造強大創作能力

首頁

Minueza 32M Base

由Felladrin開發

Minueza-32M-Base是一個擁有3200萬參數的基礎模型，完全基於大量英文文本語料訓練而成，適用於文本生成任務。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #輕量級文本生成 #瀏覽器端部署 #ChatML格式支持

下載量 68

發布時間 : 2/25/2024

模型概述

該模型是一個基礎預訓練模型，主要用於文本生成任務，可通過微調適應多種具體應用場景。

模型特點

輕量級設計

3200萬參數的緊湊設計，適合在無GPU設備上快速運行

移動端兼容

可通過Transformers.js在移動端瀏覽器運行

ChatML格式支持

包含特殊標記支持ChatML格式，便於對話模型微調

多數據集訓練

使用9個高質量數據集交錯採樣，訓練語料約6.5億標記

模型能力

文本生成

基礎語言理解

指令跟隨（需微調）

對話生成（需微調）

使用案例

遊戲內容生成

奇幻世界設定生成

生成奇幻遊戲中的世界觀、角色設定等背景內容

可生成連貫的奇幻世界描述

教育內容生成

教材內容生成

基於開放教材數據生成教育相關內容

環保內容生成

廢棄物管理建議

生成減少廢棄物產生的實用建議

🚀 Minueza-32M-Base

Minueza-32M-Base是一個擁有3200萬參數的基礎模型，它基於大量英文文本語料從頭開始訓練。該模型適用於在移動網頁瀏覽器上運行，能在無GPU的機器上快速運行，還可作為使用ChatML格式進行微調的基礎模型。

🚀 快速開始

Minueza-32M-Base是一個基礎模型，你可以通過以下代碼運行它：

from transformers import pipeline

generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")

prompt = "The best way to improve your health is"

output = generate(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.72,
    top_p=0.73,
    top_k=50,
    repetition_penalty=1.176,
)

print(output[0]["generated_text"])

✨ 主要特性

多格式支持：該模型提供了Safetensors、GGUF和ONNX等多種格式。
多種微調版本：同時發佈了多個微調版本，如Minueza-32M-UltraChat、Minueza-32M-Chat、Minueza-32Mx2-Chat等。
特定場景適用性：旨在通過Transformers.js在移動網頁瀏覽器上運行，也能在無GPU的機器上快速運行。
支持ChatML格式：可作為使用ChatML格式進行微調的基礎模型，包含兩個額外的特殊標記 (<|im_start|> 和 <|im_end|>)，並以 <|im_end|> 作為默認的結束標記。

📦 安裝指南

文檔未提及具體安裝步驟，可參考Hugging Face相關文檔進行安裝。

💻 使用示例

基礎用法

from transformers import pipeline

generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")

prompt = "The best way to improve your health is"

output = generate(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.72,
    top_p=0.73,
    top_k=50,
    repetition_penalty=1.176,
)

print(output[0]["generated_text"])

高級用法

文檔未提及高級用法示例，可根據具體任務對模型進行應用特定的微調。

📚 詳細文檔

數據集

該模型在以下非合成數據集的子集上進行訓練：

這些子集交錯組合，形成了約6.5億個標記的最終訓練語料庫。

模型架構

這是一個採用Mistral架構的Transformer模型，在2048個標記的上下文窗口上進行訓練。

配置	值
max_position_embeddings	2048
hidden_size	312
intermediate_size	1092
num_attention_heads	12
num_hidden_layers	10
num_key_value_heads	4
vocab_size	32002

預訓練使用了以下超參數和框架：

超參數

超參數	值
learning_rate	5e-05
train_batch_size	1
eval_batch_size	1
seed	42
gradient_accumulation_steps	8
total_train_batch_size	8
optimizer	Adam（betas=(0.9,0.999)，epsilon=1e-08）
lr_scheduler_type	linear

框架

框架	版本
Transformers	4.38.0.dev0
Pytorch	2.1.2
Datasets	2.16.1
Tokenizers	0.15.1

評估結果

詳細結果可查看此處

指標	值
平均	28.92
AI2 Reasoning Challenge (25-Shot)	21.33
HellaSwag (10-Shot)	26.39
MMLU (5-Shot)	24.80
TruthfulQA (0-shot)	47.45
Winogrande (5-shot)	53.20
GSM8k (5-shot)	0.38