🚀 h2o-danube-1.8b-base模型
h2o-danube-1.8b-base是由H2O.ai训练的基础模型,拥有18亿个参数。该模型旨在为自然语言处理任务提供强大的支持,适用于多种应用场景。如需详细信息,请参考我们的技术报告。
🚀 快速开始
h2o-danube-1.8b-base是一个预训练的基础模型。对于你的具体任务,可能需要进行特定应用的微调。我们还提供了一个经过聊天微调的版本:h2oai/h2o-danube-1.8b-chat。
要在配备GPU的机器上使用transformers
库调用该模型,首先要确保已安装transformers
库。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("h2oai/h2o-danube-1.8b-base")
model = AutoModelForCausalLM.from_pretrained(
"h2oai/h2o-danube-1.8b-base",
torch_dtype=torch.bfloat16,
)
model.cuda()
inputs = tokenizer("The Danube is the second longest river in Europe", return_tensors="pt").to(model.device)
res = model.generate(
**inputs,
max_new_tokens=38,
do_sample=False,
)
print(tokenizer.decode(res[0], skip_special_tokens=True))
✨ 主要特性
我们发布了该模型的三个版本:
🔧 技术细节
模型架构
我们对Llama 2架构进行了调整,使模型参数总数约为18亿。我们使用原始的Llama 2分词器,词汇量大小为32,000,并将模型训练至16,384的上下文长度。同时,我们引入了来自Mistral的大小为4,096的滑动窗口注意力机制。
模型架构的详细信息如下:
超参数 |
值 |
n_layers |
24 |
n_heads |
32 |
n_query_groups |
8 |
n_embd |
2560 |
词汇量大小 |
32000 |
序列长度 |
16384 |
基准测试
在零样本设置下进行的常识、世界知识和阅读理解测试结果如下:
基准测试 |
准确率 |
ARC-easy |
62.29 |
ARC-challenge |
35.84 |
BoolQ |
65.81 |
Hellaswag |
68.20 |
OpenBookQA |
37.60 |
PiQA |
76.93 |
TriviaQA |
38.99 |
Winogrande |
61.96 |
📄 许可证
本项目采用Apache-2.0许可证。
⚠️ 免责声明
在使用本仓库提供的大语言模型之前,请仔细阅读本免责声明。使用该模型即表示您同意遵守以下条款和条件。
- 偏差与冒犯性内容:该大语言模型是在广泛多样的互联网文本数据上进行训练的,这些数据可能包含有偏差、种族主义、冒犯性或其他不适当的内容。使用此模型即表示您承认并接受生成的内容有时可能会表现出偏差,或产生冒犯性或不适当的内容。本仓库的开发者不认可、支持或宣扬任何此类内容或观点。
- 局限性:该大语言模型是基于人工智能的工具,而非人类。它可能会产生不正确、无意义或不相关的回复。用户有责任批判性地评估生成的内容,并自行决定是否使用。
- 自担风险:使用此大语言模型的用户必须对使用该工具可能产生的任何后果承担全部责任。本仓库的开发者和贡献者不对因使用或滥用所提供的模型而导致的任何损害、损失或伤害承担责任。
- 道德考量:鼓励用户负责任且合乎道德地使用该大语言模型。使用此模型即表示您同意不将其用于宣扬仇恨言论、歧视、骚扰或任何形式的非法或有害活动。
- 问题反馈:如果您遇到该大语言模型生成的任何有偏差、冒犯性或其他不适当的内容,请通过提供的渠道向仓库维护者报告。您的反馈将有助于改进模型并减少潜在问题。
- 免责声明变更:本仓库的开发者保留随时修改或更新本免责声明的权利,且无需事先通知。用户有责任定期查看免责声明,以了解任何变更。
使用本仓库提供的大语言模型即表示您同意接受并遵守本免责声明中规定的条款和条件。如果您不同意本免责声明的任何部分,应避免使用该模型及其生成的任何内容。