h2o-danube3-4b-chat開源聊天模型 - 免費支持文本生成，手機離線也能用

首頁

H2o Danube3 4b Chat

由h2oai開發

H2O.ai 微調的40億參數聊天模型，支持文本生成任務，可在手機上離線運行。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #手機離線運行 #長上下文支持 #40億參數

下載量 41.49k

發布時間 : 7/4/2024

模型概述

h2o-danube3-4b-chat 是 H2O.ai 微調的聊天模型，擁有40億參數，能有效處理文本生成任務，在多類基準測試中表現良好，且可在手機上離線運行。

模型特點

雙版本發佈

提供基礎模型和聊天模型兩個版本，滿足不同場景需求。

低資源運行

可以在手機上原生且完全離線運行，方便用戶隨時隨地使用。

長上下文支持

使用Mistral分詞器，詞彙量為32000，模型訓練的上下文長度可達8192。

模型能力

文本生成

聊天對話

多輪對話處理

使用案例

聊天機器人

健康諮詢

回答關於健康生活的問題，如'為什麼喝水有益健康？'

生成詳細且準確的健康建議

客戶服務

自動客服

處理客戶常見問題，提供即時響應

提升客戶滿意度，減少人工客服負擔

🚀 h2o-danube3-4b-chat 模型介紹

h2o-danube3-4b-chat 是 H2O.ai 微調的聊天模型，擁有 40 億參數。該模型能有效處理文本生成任務，在多類基準測試中表現良好，且可在手機上離線運行。

🚀 快速開始

你可以使用 transformers 庫在 GPU 機器上使用該模型。首先確保你已經安裝了 transformers 庫：

pip install transformers>=4.42.3

以下是使用示例代碼：

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="h2oai/h2o-danube3-4b-chat",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

# We use the HF Tokenizer chat template to format each message
# https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = pipe.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
res = pipe(
    prompt,
    return_full_text=False,
    max_new_tokens=256,
)
print(res[0]["generated_text"])

此代碼會自動應用並運行正確的提示格式：

<|prompt|>Why is drinking water so healthy?</s><|answer|>

你也可以通過以下方式運行：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "h2oai/h2o-danube3-4b-chat"

tokenizer = AutoTokenizer.from_pretrained(
    model_name,
)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

messages = [
    {"role": "user", "content": "Why is drinking water so healthy?"},
]
prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
inputs = tokenizer(
    prompt, return_tensors="pt", add_special_tokens=False
).to("cuda")

# generate configuration can be modified to your needs
tokens = model.generate(
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    min_new_tokens=2,
    max_new_tokens=256,
)[0]

tokens = tokens[inputs["input_ids"].shape[1]:]
answer = tokenizer.decode(tokens, skip_special_tokens=True)
print(answer)

✨ 主要特性

雙版本發佈：H2O.ai 發佈了該模型的兩個版本，分別為基礎模型和聊天模型，滿足不同場景需求。
低資源運行：可以在手機上原生且完全離線運行，方便用戶隨時隨地使用。
長上下文支持：使用 Mistral 分詞器，詞彙量為 32000，模型訓練的上下文長度可達 8192。

📦 安裝指南

使用前需安裝 transformers 庫，安裝命令如下：

pip install transformers>=4.42.3

🔧 技術細節

模型架構調整

我們對 Llama 2 架構進行了調整，總參數約 40 億。具體細節請參考我們的技術報告。

架構詳情

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 3840, padding_idx=0)
    (layers): ModuleList(
      (0-23): 24 x LlamaDecoderLayer(
        (self_attn): LlamaSdpaAttention(
          (q_proj): Linear(in_features=3840, out_features=3840, bias=False)
          (k_proj): Linear(in_features=3840, out_features=960, bias=False)
          (v_proj): Linear(in_features=3840, out_features=960, bias=False)
          (o_proj): Linear(in_features=3840, out_features=3840, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=3840, out_features=10240, bias=False)
          (up_proj): Linear(in_features=3840, out_features=10240, bias=False)
          (down_proj): Linear(in_features=10240, out_features=3840, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm): LlamaRMSNorm()
  )
  (lm_head): Linear(in_features=3840, out_features=32000, bias=False)
)

量化與分片

你可以通過指定 load_in_8bit=True 或 load_in_4bit=True 來使用量化方式加載模型。同時，通過設置 device_map=auto 可以在多個 GPU 上進行分片。

📚 詳細文檔

模型版本

模型名稱	描述
h2oai/h2o-danube3-4b-base	基礎模型
h2oai/h2o-danube3-4b-chat	聊天模型

基準測試結果

Open LLM Leaderboard v1

基準測試	準確率
平均	61.42
ARC-challenge	58.96
Hellaswag	80.36
MMLU	54.74
TruthfulQA	47.79
Winogrande	76.48
GSM8K	50.18

MT-Bench

First Turn: 7.28
Second Turn: 5.69
Average: 6.49

📄 許可證

本項目採用 Apache-2.0 許可證。

⚠️ 免責聲明

在使用本倉庫提供的大語言模型之前，請仔細閱讀本免責聲明。使用該模型即表示你同意以下條款和條件。

偏差與冒犯性：大語言模型在各種互聯網文本數據上進行訓練，這些數據可能包含有偏差、種族主義、冒犯性或其他不適當的內容。使用此模型即表示你承認並接受生成的內容有時可能會表現出偏差或產生冒犯性或不適當的內容。本倉庫的開發者不認可、支持或推廣任何此類內容或觀點。
侷限性：大語言模型是基於人工智能的工具，而非人類。它可能會產生不正確、無意義或不相關的回覆。用戶有責任批判性地評估生成的內容並自行決定是否使用。
風險自擔：使用此大語言模型的用戶必須對使用該工具可能產生的任何後果承擔全部責任。本倉庫的開發者和貢獻者對因使用或濫用所提供的模型而導致的任何損害、損失或傷害不承擔責任。
道德考量：鼓勵用戶負責任且合乎道德地使用大語言模型。使用此模型即表示你同意不將其用於促進仇恨言論、歧視、騷擾或任何形式的非法或有害活動的目的。
問題報告：如果你遇到大語言模型生成的任何有偏差、冒犯性或其他不適當的內容，請通過提供的渠道向倉庫維護者報告。你的反饋將有助於改進模型並減輕潛在問題。
免責聲明變更：本倉庫的開發者保留隨時修改或更新本免責聲明的權利，無需事先通知。用戶有責任定期查看免責聲明，以瞭解任何變更。

使用本倉庫提供的大語言模型即表示你同意接受並遵守本免責聲明中規定的條款和條件。如果你不同意本免責聲明的任何部分，則應避免使用該模型及其生成的任何內容。