h2o-danube2-1.8b-chat開源聊天模型 - 長上下文支持，暢聊更盡興

首頁

H2o Danube2 1.8b Chat

由h2oai開發

由H2O.ai微調的18億參數聊天模型，基於Llama 2架構調整，支持8192上下文長度

大型語言模型

Transformers

英語開源協議:Apache-2.0 #多輪對話優化 #18億參數輕量級 #長上下文支持

下載量 948

發布時間 : 4/5/2024

模型概述

這是一個經過SFT和DPO微調的聊天模型，適用於對話生成任務，基於Mistral分詞器

模型特點

長上下文支持

支持8192 tokens的上下文長度，適合處理長對話

高效推理

18億參數規模在保持性能的同時實現高效推理

多階段微調

經過SFT(監督微調)和DPO(直接偏好優化)兩階段訓練

模型能力

對話生成

文本補全

問答系統

使用案例

客服聊天機器人

客戶服務對話

用於處理客戶諮詢和常見問題解答

教育輔助

學習輔導

幫助學生解答學習問題和解釋概念

🚀 h2o-danube2-1.8b-chat模型

h2o-danube2-1.8b-chat是由H2O.ai微調的聊天模型，擁有18億參數。本模型旨在為文本生成任務提供高效、準確的解決方案，在多種自然語言處理場景中具有廣泛應用價值。

🚀 快速開始

環境準備

要在支持GPU的機器上使用transformers庫調用此模型，首先需確保已安裝transformers庫：

pip install transformers>=4.39.3

代碼示例

以下是使用該模型進行文本生成的示例代碼：

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="h2oai/h2o-danube2-1.8b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

# 我們使用HF Tokenizer聊天模板來格式化每條消息
# https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = pipe.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
res = pipe(
    prompt,
    max_new_tokens=256,
)
print(res[0]["generated_text"])

此代碼將自動應用並運行正確的提示格式，如下所示：

<|prompt|>Why is drinking water so healthy?</s><|answer|>

✨ 主要特性

多版本發佈：提供基礎模型、SFT微調模型和SFT + DPO微調模型三個版本，滿足不同應用場景需求。
長上下文支持：使用Mistral分詞器，詞彙量為32,000，模型訓練的上下文長度可達8,192。
量化與分片支持：支持通過指定load_in_8bit=True或load_in_4bit=True進行量化加載，還可通過設置device_map=auto在多個GPU上進行分片。

📦 安裝指南

在支持GPU的機器上，使用以下命令安裝所需的transformers庫：

pip install transformers>=4.39.3

💻 使用示例

基礎用法

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="h2oai/h2o-danube2-1.8b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = pipe.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
res = pipe(
    prompt,
    max_new_tokens=256,
)
print(res[0]["generated_text"])

高級用法

在加載模型時，可以使用量化和分片功能：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "h2oai/h2o-danube2-1.8b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True, device_map="auto")

messages = [
    {"role": "user", "content": "請介紹一下量子計算的原理。"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 詳細文檔

模型架構

我們對Llama 2架構進行了調整，總參數約為18億。具體細節請參考我們的技術報告。模型架構的詳細信息如下：

超參數	值
n_layers	24
n_heads	32
n_query_groups	8
n_embd	2560
詞彙量	32000
序列長度	8192

模型的具體結構如下：

MistralForCausalLM(
  (model): MistralModel(
    (embed_tokens): Embedding(32000, 2560, padding_idx=0)
    (layers): ModuleList(
      (0-23): 24 x MistralDecoderLayer(
        (self_attn): MistralAttention(
          (q_proj): Linear(in_features=2560, out_features=2560, bias=False)
          (k_proj): Linear(in_features=2560, out_features=640, bias=False)
          (v_proj): Linear(in_features=2560, out_features=640, bias=False)
          (o_proj): Linear(in_features=2560, out_features=2560, bias=False)
          (rotary_emb): MistralRotaryEmbedding()
        )
        (mlp): MistralMLP(
          (gate_proj): Linear(in_features=2560, out_features=6912, bias=False)
          (up_proj): Linear(in_features=2560, out_features=6912, bias=False)
          (down_proj): Linear(in_features=6912, out_features=2560, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): MistralRMSNorm()
        (post_attention_layernorm): MistralRMSNorm()
      )
    )
    (norm): MistralRMSNorm()
  )
  (lm_head): Linear(in_features=2560, out_features=32000, bias=False)
)

基準測試

🤗 Open LLM排行榜

基準測試	acc_n
平均	48.44
ARC挑戰	43.43
Hellaswag	73.54
MMLU	37.77
TruthfulQA	39.96
Winogrande	69.77
GSM8K	26.16

MT-Bench

第一輪：6.23
第二輪：5.34
平均：5.79

image/png

🔧 技術細節

本模型基於Llama 2架構進行調整，使用H2O LLM Studio進行訓練。通過優化架構和調整超參數，實現了在多個基準測試中的良好表現。具體技術細節可參考技術報告。

📄 許可證

本項目採用Apache-2.0許可證。

⚠️ 免責聲明

在使用本倉庫提供的大語言模型之前，請仔細閱讀本免責聲明。使用該模型即表示您同意遵守以下條款和條件。

偏差與冒犯性：大語言模型是在廣泛的互聯網文本數據上進行訓練的，這些數據可能包含有偏差、種族主義、冒犯性或其他不適當的內容。使用此模型時，您需承認並接受生成的內容有時可能會表現出偏差，或產生冒犯性或不適當的內容。本倉庫的開發者不認可、支持或推廣任何此類內容或觀點。
侷限性：大語言模型是基於人工智能的工具，而非人類。它可能會產生錯誤、無意義或不相關的回覆。用戶有責任批判性地評估生成的內容，並自行決定是否使用。
風險自擔：使用此大語言模型的用戶必須對使用該工具可能產生的任何後果承擔全部責任。本倉庫的開發者和貢獻者不對因使用或濫用所提供的模型而導致的任何損害、損失或傷害承擔責任。
倫理考量：鼓勵用戶負責任且合乎道德地使用大語言模型。使用此模型即表示您同意不將其用於促進仇恨言論、歧視、騷擾或任何形式的非法或有害活動的目的。
問題報告：如果您遇到大語言模型生成的有偏差、冒犯性或其他不適當的內容，請通過提供的渠道向倉庫維護者報告。您的反饋將有助於改進模型並減少潛在問題。
免責聲明變更：本倉庫的開發者保留隨時修改或更新本免責聲明的權利，無需事先通知。用戶有責任定期查看免責聲明，以瞭解任何變更。

使用本倉庫提供的大語言模型即表示您同意接受並遵守本免責聲明中規定的條款和條件。如果您不同意本免責聲明的任何部分，請勿使用該模型及其生成的任何內容。