🚀 模型ID的模型卡片
这是一个🤗 Transformers模型的模型卡片,该模型已被推送到Hugging Face Hub上。此模型卡片是自动生成的。它可用于极低资源消耗下的通用网络文本补全任务。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("crumb/nano-mistral")
tokenizer = AutoTokenizer.from_pretrained("crumb/nano-mistral")
inputs = tokenizer(["Once upon a time,"], return_tensors="pt")
inputs = {k:v.to(model.device) for k,v in dict(inputs).items()}
outputs = model.generate(inputs, max_new_tokens=128, temperature=0.7, top_k=20, do_sample=True)
outputs = tokenizer.batch_decode(outputs)
for i in outputs:
print(i)
✨ 主要特性
- 能够在极低资源消耗下进行通用网络文本补全。
- 非指令模型,不适合用于指令类任务。
📦 安装指南
文档未提及安装步骤,可参考🤗 Transformers库的官方安装文档进行安装。
📚 详细文档
模型详情
模型描述
这是一个被推送到Hugging Face Hub的🤗 Transformers模型的模型卡片。
- 开发者: me
- 模型类型: Mistral
- 语言(NLP): 英语
- 许可证: Apache
使用场景
适用场景
可用于极低资源消耗下的通用网络文本补全。
不适用场景
该模型不是指令模型,不适合用于指令类任务。
偏差、风险和局限性
该模型在网络文本上进行训练,尽管经过过滤,但不能保证不包含有害内容。
训练详情
训练数据
crumb/askmistral-pile-2-15
训练过程
参数 |
值 |
上下文长度 |
2048 |
批量大小 |
128 |
学习率 |
6e - 4 |
调度器 |
One - Cycle |
Adam eps |
1e - 8 |
Adam beta1 |
0.9 |
Adam beta2 |
0.95 |
权重衰减 |
0.1 |
最大梯度范数 |
1.0 |
优化器 |
adamw_torch |
令牌数 |
3,401,640,960 |
训练超参数
评估
测试数据、因素和指标
测试数据
crumb/askmistral-pile-2-15的保留集
指标
OpenLLM排行榜评估数据集和设置
结果
OpenLLM排行榜平均得分 + 标准误差:(29.30, 0.42)
任务 |
版本 |
过滤 |
n - shot |
指标 |
值 |
|
标准误差 |
arc_challenge |
1 |
none |
25 |
acc |
0.1843 |
± |
0.0113 |
|
|
none |
25 |
acc_norm |
0.2167 |
± |
0.0120 |
truthfulqa_mc2 |
2 |
none |
0 |
acc |
0.4719 |
± |
0.0156 |
winogrande |
1 |
none |
5 |
acc |
0.517 |
± |
0.014 |
hellaswag |
1 |
none |
10 |
acc |
0.2803 |
± |
0.0045 |
|
|
none |
10 |
acc_norm |
0.2886 |
± |
0.0045 |
gsm8k |
3 |
strict - match |
5 |
exact_match |
0.0008 |
± |
0.0008 |
|
|
flexible - extract |
5 |
exact_match |
0.0099 |
± |
0.0027 |
MMLU
值,标准误差 = (0.253980701754386, 0.004428598058450528)
任务 |
版本 |
过滤 |
n - shot |
指标 |
值 |
|
标准误差 |
world_religions |
0 |
none |
5 |
acc |
0.2222 |
± |
0.0319 |
virology |
0 |
none |
5 |
acc |
0.2711 |
± |
0.0346 |
...(此处省略其他任务,可根据原文档完整列出) |
... |
... |
... |
... |
... |
... |
... |
模型检查
模型表现尚可。
环境影响
可以使用Lacoste等人(2019)中提出的机器学习影响计算器来估算碳排放。
- 硬件类型: A6000
- 使用时长: 34.74小时
- 云服务提供商: 无
- 计算区域: 爱荷华州
- 碳排放: 4.5千克CO2eq
技术规格
模型架构和目标
Mistral,因果语言建模
计算基础设施
硬件
lambda vector 2xA6000
软件
Hugging Face Transformers / PyTorch / 自定义训练器
🔧 技术细节
模型架构和目标
采用Mistral架构,用于因果语言建模。
计算基础设施
- 硬件: lambda vector 2xA6000
- 软件: Hugging Face Transformers / PyTorch / 自定义训练器
📄 许可证
Apache 2.0