h2o-danube2-1.8b-chat开源聊天模型 - 长上下文支持，畅聊更尽兴

首页

H2o Danube2 1.8b Chat

由 h2oai 开发

由H2O.ai微调的18亿参数聊天模型，基于Llama 2架构调整，支持8192上下文长度

大型语言模型

Transformers

英语开源协议:Apache-2.0 #多轮对话优化 #18亿参数轻量级 #长上下文支持

下载量 948

发布时间 : 4/5/2024

模型简介

这是一个经过SFT和DPO微调的聊天模型，适用于对话生成任务，基于Mistral分词器

模型特点

长上下文支持

支持8192 tokens的上下文长度，适合处理长对话

高效推理

18亿参数规模在保持性能的同时实现高效推理

多阶段微调

经过SFT(监督微调)和DPO(直接偏好优化)两阶段训练

模型能力

对话生成

文本补全

问答系统

使用案例

客服聊天机器人

客户服务对话

用于处理客户咨询和常见问题解答

教育辅助

学习辅导

帮助学生解答学习问题和解释概念

🚀 h2o-danube2-1.8b-chat模型

h2o-danube2-1.8b-chat是由H2O.ai微调的聊天模型，拥有18亿参数。本模型旨在为文本生成任务提供高效、准确的解决方案，在多种自然语言处理场景中具有广泛应用价值。

🚀 快速开始

环境准备

要在支持GPU的机器上使用transformers库调用此模型，首先需确保已安装transformers库：

pip install transformers>=4.39.3

代码示例

以下是使用该模型进行文本生成的示例代码：

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="h2oai/h2o-danube2-1.8b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

# 我们使用HF Tokenizer聊天模板来格式化每条消息
# https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = pipe.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
res = pipe(
    prompt,
    max_new_tokens=256,
)
print(res[0]["generated_text"])

此代码将自动应用并运行正确的提示格式，如下所示：

<|prompt|>Why is drinking water so healthy?</s><|answer|>

✨ 主要特性

多版本发布：提供基础模型、SFT微调模型和SFT + DPO微调模型三个版本，满足不同应用场景需求。
长上下文支持：使用Mistral分词器，词汇量为32,000，模型训练的上下文长度可达8,192。
量化与分片支持：支持通过指定load_in_8bit=True或load_in_4bit=True进行量化加载，还可通过设置device_map=auto在多个GPU上进行分片。

📦 安装指南

在支持GPU的机器上，使用以下命令安装所需的transformers库：

pip install transformers>=4.39.3

💻 使用示例

基础用法

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="h2oai/h2o-danube2-1.8b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = pipe.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
res = pipe(
    prompt,
    max_new_tokens=256,
)
print(res[0]["generated_text"])

高级用法

在加载模型时，可以使用量化和分片功能：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "h2oai/h2o-danube2-1.8b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True, device_map="auto")

messages = [
    {"role": "user", "content": "请介绍一下量子计算的原理。"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 详细文档

模型架构

我们对Llama 2架构进行了调整，总参数约为18亿。具体细节请参考我们的技术报告。模型架构的详细信息如下：

超参数	值
n_layers	24
n_heads	32
n_query_groups	8
n_embd	2560
词汇量	32000
序列长度	8192

模型的具体结构如下：

MistralForCausalLM(
  (model): MistralModel(
    (embed_tokens): Embedding(32000, 2560, padding_idx=0)
    (layers): ModuleList(
      (0-23): 24 x MistralDecoderLayer(
        (self_attn): MistralAttention(
          (q_proj): Linear(in_features=2560, out_features=2560, bias=False)
          (k_proj): Linear(in_features=2560, out_features=640, bias=False)
          (v_proj): Linear(in_features=2560, out_features=640, bias=False)
          (o_proj): Linear(in_features=2560, out_features=2560, bias=False)
          (rotary_emb): MistralRotaryEmbedding()
        )
        (mlp): MistralMLP(
          (gate_proj): Linear(in_features=2560, out_features=6912, bias=False)
          (up_proj): Linear(in_features=2560, out_features=6912, bias=False)
          (down_proj): Linear(in_features=6912, out_features=2560, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): MistralRMSNorm()
        (post_attention_layernorm): MistralRMSNorm()
      )
    )
    (norm): MistralRMSNorm()
  )
  (lm_head): Linear(in_features=2560, out_features=32000, bias=False)
)

基准测试

🤗 Open LLM排行榜

基准测试	acc_n
平均	48.44
ARC挑战	43.43
Hellaswag	73.54
MMLU	37.77
TruthfulQA	39.96
Winogrande	69.77
GSM8K	26.16

MT-Bench

第一轮：6.23
第二轮：5.34
平均：5.79

image/png

🔧 技术细节

本模型基于Llama 2架构进行调整，使用H2O LLM Studio进行训练。通过优化架构和调整超参数，实现了在多个基准测试中的良好表现。具体技术细节可参考技术报告。

📄 许可证

本项目采用Apache-2.0许可证。

⚠️ 免责声明

在使用本仓库提供的大语言模型之前，请仔细阅读本免责声明。使用该模型即表示您同意遵守以下条款和条件。

偏差与冒犯性：大语言模型是在广泛的互联网文本数据上进行训练的，这些数据可能包含有偏差、种族主义、冒犯性或其他不适当的内容。使用此模型时，您需承认并接受生成的内容有时可能会表现出偏差，或产生冒犯性或不适当的内容。本仓库的开发者不认可、支持或推广任何此类内容或观点。
局限性：大语言模型是基于人工智能的工具，而非人类。它可能会产生错误、无意义或不相关的回复。用户有责任批判性地评估生成的内容，并自行决定是否使用。
风险自担：使用此大语言模型的用户必须对使用该工具可能产生的任何后果承担全部责任。本仓库的开发者和贡献者不对因使用或滥用所提供的模型而导致的任何损害、损失或伤害承担责任。
伦理考量：鼓励用户负责任且合乎道德地使用大语言模型。使用此模型即表示您同意不将其用于促进仇恨言论、歧视、骚扰或任何形式的非法或有害活动的目的。
问题报告：如果您遇到大语言模型生成的有偏差、冒犯性或其他不适当的内容，请通过提供的渠道向仓库维护者报告。您的反馈将有助于改进模型并减少潜在问题。
免责声明变更：本仓库的开发者保留随时修改或更新本免责声明的权利，无需事先通知。用户有责任定期查看免责声明，以了解任何变更。

使用本仓库提供的大语言模型即表示您同意接受并遵守本免责声明中规定的条款和条件。如果您不同意本免责声明的任何部分，请勿使用该模型及其生成的任何内容。