Minueza-32M-Base开源文本生成模型 - 基于英文语料打造强大创作能力

首页

Minueza 32M Base

由 Felladrin 开发

Minueza-32M-Base是一个拥有3200万参数的基础模型，完全基于大量英文文本语料训练而成，适用于文本生成任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #轻量级文本生成 #浏览器端部署 #ChatML格式支持

下载量 68

发布时间 : 2/25/2024

模型简介

该模型是一个基础预训练模型，主要用于文本生成任务，可通过微调适应多种具体应用场景。

模型特点

轻量级设计

3200万参数的紧凑设计，适合在无GPU设备上快速运行

移动端兼容

可通过Transformers.js在移动端浏览器运行

ChatML格式支持

包含特殊标记支持ChatML格式，便于对话模型微调

多数据集训练

使用9个高质量数据集交错采样，训练语料约6.5亿标记

模型能力

文本生成

基础语言理解

指令跟随（需微调）

对话生成（需微调）

使用案例

游戏内容生成

奇幻世界设定生成

生成奇幻游戏中的世界观、角色设定等背景内容

可生成连贯的奇幻世界描述

教育内容生成

教材内容生成

基于开放教材数据生成教育相关内容

环保内容生成

废弃物管理建议

生成减少废弃物产生的实用建议

🚀 Minueza-32M-Base

Minueza-32M-Base是一个拥有3200万参数的基础模型，它基于大量英文文本语料从头开始训练。该模型适用于在移动网页浏览器上运行，能在无GPU的机器上快速运行，还可作为使用ChatML格式进行微调的基础模型。

🚀 快速开始

Minueza-32M-Base是一个基础模型，你可以通过以下代码运行它：

from transformers import pipeline

generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")

prompt = "The best way to improve your health is"

output = generate(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.72,
    top_p=0.73,
    top_k=50,
    repetition_penalty=1.176,
)

print(output[0]["generated_text"])

✨ 主要特性

多格式支持：该模型提供了Safetensors、GGUF和ONNX等多种格式。
多种微调版本：同时发布了多个微调版本，如Minueza-32M-UltraChat、Minueza-32M-Chat、Minueza-32Mx2-Chat等。
特定场景适用性：旨在通过Transformers.js在移动网页浏览器上运行，也能在无GPU的机器上快速运行。
支持ChatML格式：可作为使用ChatML格式进行微调的基础模型，包含两个额外的特殊标记 (<|im_start|> 和 <|im_end|>)，并以 <|im_end|> 作为默认的结束标记。

📦 安装指南

文档未提及具体安装步骤，可参考Hugging Face相关文档进行安装。

💻 使用示例

基础用法

from transformers import pipeline

generate = pipeline("text-generation", "Felladrin/Minueza-32M-Base")

prompt = "The best way to improve your health is"

output = generate(
    prompt,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.72,
    top_p=0.73,
    top_k=50,
    repetition_penalty=1.176,
)

print(output[0]["generated_text"])

高级用法

文档未提及高级用法示例，可根据具体任务对模型进行应用特定的微调。

📚 详细文档

数据集

该模型在以下非合成数据集的子集上进行训练：

这些子集交错组合，形成了约6.5亿个标记的最终训练语料库。

模型架构

这是一个采用Mistral架构的Transformer模型，在2048个标记的上下文窗口上进行训练。

配置	值
max_position_embeddings	2048
hidden_size	312
intermediate_size	1092
num_attention_heads	12
num_hidden_layers	10
num_key_value_heads	4
vocab_size	32002

预训练使用了以下超参数和框架：

超参数

超参数	值
learning_rate	5e-05
train_batch_size	1
eval_batch_size	1
seed	42
gradient_accumulation_steps	8
total_train_batch_size	8
optimizer	Adam（betas=(0.9,0.999)，epsilon=1e-08）
lr_scheduler_type	linear

框架

框架	版本
Transformers	4.38.0.dev0
Pytorch	2.1.2
Datasets	2.16.1
Tokenizers	0.15.1

评估结果

详细结果可查看此处

指标	值
平均	28.92
AI2 Reasoning Challenge (25-Shot)	21.33
HellaSwag (10-Shot)	26.39
MMLU (5-Shot)	24.80
TruthfulQA (0-shot)	47.45
Winogrande (5-shot)	53.20
GSM8k (5-shot)	0.38