nano-mistral开源大语言模型 - 免费部署，高效处理英语文本

首页

Nano Mistral

由 crumb 开发

基于Mistral架构的大语言模型，使用Pile数据集训练，支持英语文本处理

大型语言模型

Transformers

英语开源协议:Apache-2.0 #英文问答生成 #大语言模型 #零样本学习

下载量 1,855

发布时间 : 3/8/2024

模型简介

该模型是基于Mistral架构的大语言模型，专注于英语文本处理任务，适用于多种自然语言处理场景

模型特点

基于Mistral架构

采用高效的Mistral架构设计，提供良好的文本处理能力

英语专注优化

专门针对英语文本进行训练和优化

Apache 2.0许可

采用宽松的Apache 2.0许可证，允许商业使用

模型能力

文本生成

问答系统

文本理解

语言建模

使用案例

内容创作

自动文章生成

根据提示生成连贯的英语文章

智能问答

知识问答系统

回答用户提出的各种知识性问题

文本分析

文档摘要

自动生成长文档的简洁摘要

🚀 模型ID的模型卡片

这是一个🤗 Transformers模型的模型卡片，该模型已被推送到Hugging Face Hub上。此模型卡片是自动生成的。它可用于极低资源消耗下的通用网络文本补全任务。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("crumb/nano-mistral")
tokenizer = AutoTokenizer.from_pretrained("crumb/nano-mistral")

inputs = tokenizer(["Once upon a time,"], return_tensors="pt")
inputs = {k:v.to(model.device) for k,v in dict(inputs).items()}
outputs = model.generate(inputs, max_new_tokens=128, temperature=0.7, top_k=20, do_sample=True)
outputs = tokenizer.batch_decode(outputs)
for i in outputs:
  print(i)

✨ 主要特性

能够在极低资源消耗下进行通用网络文本补全。
非指令模型，不适合用于指令类任务。

📦 安装指南

文档未提及安装步骤，可参考🤗 Transformers库的官方安装文档进行安装。

📚 详细文档

模型详情

模型描述

这是一个被推送到Hugging Face Hub的🤗 Transformers模型的模型卡片。

开发者： me
模型类型： Mistral
语言（NLP）： 英语
许可证： Apache

使用场景

适用场景

可用于极低资源消耗下的通用网络文本补全。

不适用场景

该模型不是指令模型，不适合用于指令类任务。

偏差、风险和局限性

该模型在网络文本上进行训练，尽管经过过滤，但不能保证不包含有害内容。

训练详情

训练数据

crumb/askmistral-pile-2-15

训练过程

参数	值
上下文长度	2048
批量大小	128
学习率	6e - 4
调度器	One - Cycle
Adam eps	1e - 8
Adam beta1	0.9
Adam beta2	0.95
权重衰减	0.1
最大梯度范数	1.0
优化器	adamw_torch
令牌数	3,401,640,960

训练超参数

训练机制： bf16非混合精度

评估

测试数据、因素和指标

测试数据

crumb/askmistral-pile-2-15的保留集

指标

OpenLLM排行榜评估数据集和设置

结果

OpenLLM排行榜平均得分 + 标准误差：(29.30, 0.42)

任务	版本	过滤	n - shot	指标	值		标准误差
arc_challenge	1	none	25	acc	0.1843	±	0.0113
		none	25	acc_norm	0.2167	±	0.0120
truthfulqa_mc2	2	none	0	acc	0.4719	±	0.0156
winogrande	1	none	5	acc	0.517	±	0.014
hellaswag	1	none	10	acc	0.2803	±	0.0045
		none	10	acc_norm	0.2886	±	0.0045
gsm8k	3	strict - match	5	exact_match	0.0008	±	0.0008
		flexible - extract	5	exact_match	0.0099	±	0.0027

MMLU

值，标准误差 = (0.253980701754386, 0.004428598058450528)

任务	版本	过滤	n - shot	指标	值		标准误差
world_religions	0	none	5	acc	0.2222	±	0.0319
virology	0	none	5	acc	0.2711	±	0.0346
...（此处省略其他任务，可根据原文档完整列出）	...	...	...	...	...	...	...