🚀 h2o-danube-1.8b-base模型
h2o-danube-1.8b-base是由H2O.ai訓練的基礎模型,擁有18億個參數。該模型旨在為自然語言處理任務提供強大的支持,適用於多種應用場景。如需詳細信息,請參考我們的技術報告。
🚀 快速開始
h2o-danube-1.8b-base是一個預訓練的基礎模型。對於你的具體任務,可能需要進行特定應用的微調。我們還提供了一個經過聊天微調的版本:h2oai/h2o-danube-1.8b-chat。
要在配備GPU的機器上使用transformers
庫調用該模型,首先要確保已安裝transformers
庫。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("h2oai/h2o-danube-1.8b-base")
model = AutoModelForCausalLM.from_pretrained(
"h2oai/h2o-danube-1.8b-base",
torch_dtype=torch.bfloat16,
)
model.cuda()
inputs = tokenizer("The Danube is the second longest river in Europe", return_tensors="pt").to(model.device)
res = model.generate(
**inputs,
max_new_tokens=38,
do_sample=False,
)
print(tokenizer.decode(res[0], skip_special_tokens=True))
✨ 主要特性
我們發佈了該模型的三個版本:
🔧 技術細節
模型架構
我們對Llama 2架構進行了調整,使模型參數總數約為18億。我們使用原始的Llama 2分詞器,詞彙量大小為32,000,並將模型訓練至16,384的上下文長度。同時,我們引入了來自Mistral的大小為4,096的滑動窗口注意力機制。
模型架構的詳細信息如下:
超參數 |
值 |
n_layers |
24 |
n_heads |
32 |
n_query_groups |
8 |
n_embd |
2560 |
詞彙量大小 |
32000 |
序列長度 |
16384 |
基準測試
在零樣本設置下進行的常識、世界知識和閱讀理解測試結果如下:
基準測試 |
準確率 |
ARC-easy |
62.29 |
ARC-challenge |
35.84 |
BoolQ |
65.81 |
Hellaswag |
68.20 |
OpenBookQA |
37.60 |
PiQA |
76.93 |
TriviaQA |
38.99 |
Winogrande |
61.96 |
📄 許可證
本項目採用Apache-2.0許可證。
⚠️ 免責聲明
在使用本倉庫提供的大語言模型之前,請仔細閱讀本免責聲明。使用該模型即表示您同意遵守以下條款和條件。
- 偏差與冒犯性內容:該大語言模型是在廣泛多樣的互聯網文本數據上進行訓練的,這些數據可能包含有偏差、種族主義、冒犯性或其他不適當的內容。使用此模型即表示您承認並接受生成的內容有時可能會表現出偏差,或產生冒犯性或不適當的內容。本倉庫的開發者不認可、支持或宣揚任何此類內容或觀點。
- 侷限性:該大語言模型是基於人工智能的工具,而非人類。它可能會產生不正確、無意義或不相關的回覆。用戶有責任批判性地評估生成的內容,並自行決定是否使用。
- 自擔風險:使用此大語言模型的用戶必須對使用該工具可能產生的任何後果承擔全部責任。本倉庫的開發者和貢獻者不對因使用或濫用所提供的模型而導致的任何損害、損失或傷害承擔責任。
- 道德考量:鼓勵用戶負責任且合乎道德地使用該大語言模型。使用此模型即表示您同意不將其用於宣揚仇恨言論、歧視、騷擾或任何形式的非法或有害活動。
- 問題反饋:如果您遇到該大語言模型生成的任何有偏差、冒犯性或其他不適當的內容,請通過提供的渠道向倉庫維護者報告。您的反饋將有助於改進模型並減少潛在問題。
- 免責聲明變更:本倉庫的開發者保留隨時修改或更新本免責聲明的權利,且無需事先通知。用戶有責任定期查看免責聲明,以瞭解任何變更。
使用本倉庫提供的大語言模型即表示您同意接受並遵守本免責聲明中規定的條款和條件。如果您不同意本免責聲明的任何部分,應避免使用該模型及其生成的任何內容。