🚀 Helium-1-2b
Helium-1-2b 是一款輕量級語言模型,擁有 20 億參數,專為邊緣和移動設備設計。它支持歐盟的 24 種官方語言,可用於自然語言處理系統的研究與開發。
🚀 快速開始
使用以下代碼開始使用該模型:
import torch
from transformers import pipeline
model_id = "kyutai/helium-1-2b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
text = pipe("Hello, today is a great day to")
✨ 主要特性
- 輕量級設計:僅 20 億參數,適合邊緣和移動設備。
- 多語言支持:支持歐盟的 24 種官方語言。
- 廣泛應用:可用於自然語言處理系統的研究與開發。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from transformers import pipeline
model_id = "kyutai/helium-1-2b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
text = pipe("Hello, today is a great day to")
📚 詳細文檔
模型描述
Helium-1 是一款輕量級語言模型,擁有 20 億參數,目標是應用於邊緣和移動設備。它支持歐盟的 24 種官方語言。
⚠️ Helium-1 是基礎模型,未經過微調以遵循指令或人類偏好。對於大多數下游用例,該模型應通過有監督微調、基於人類反饋的強化學習(RLHF)或相關方法進行對齊。
屬性 |
詳情 |
開發者 |
Kyutai |
模型類型 |
大語言模型 |
支持語言(NLP) |
保加利亞語、捷克語、丹麥語、德語、希臘語、英語、西班牙語、愛沙尼亞語、芬蘭語、法語、愛爾蘭語、克羅地亞語、匈牙利語、意大利語、立陶宛語、拉脫維亞語、馬耳他語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語 |
許可證 |
CC-BY-SA 4.0 |
使用條款 |
作為從 Gemma 2 蒸餾而來的模型,Helium 1 需遵守 ai.google.dev/gemma/terms 上的 Gemma 使用條款 |
使用方式
直接使用
Helium 模型旨在用於自然語言處理系統的研究和開發,包括但不限於語言生成和理解。該模型可用於保加利亞語、捷克語、丹麥語、德語、希臘語、英語、西班牙語、愛沙尼亞語、芬蘭語、法語、愛爾蘭語、克羅地亞語、匈牙利語、意大利語、立陶宛語、拉脫維亞語、馬耳他語、荷蘭語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、瑞典語。對於大多數下游用例,該模型應通過有監督微調、RLHF 或相關方法進行對齊。
非預期使用
該模型不應在其訓練語言之外的其他語言中使用。該模型不應用於任何惡意或非法活動。該模型未經過微調以遵循指令,因此不應作為指令遵循模型使用。
偏差、風險和侷限性
Helium-1 是基礎語言模型,未與人類偏好對齊。因此,該模型可能會生成不正確、有偏差、有害或通常無用的內容。因此,在沒有進一步對齊、評估和風險緩解的情況下,該模型不應用於下游應用。
訓練詳情
訓練數據
Helium-1 在來自 Common Crawl 的數據上進行訓練,這些數據使用 dactory 庫進行了預處理。
評估
測試數據
該模型在 MMLU、TriviaQA、NaturalQuestions、ARC Easy & Challenge、Open Book QA、Common Sense QA、Physical Interaction QA、Social Interaction QA、HellaSwag、WinoGrande、Multilingual Knowledge QA、FLORES 200 上進行了評估。
評估指標
我們報告了 MMLU、ARC、OBQA、CSQA、PIQA、SIQA、HellaSwag、WinoGrande 的準確率。我們報告了 TriviaQA、NQ 和 MKQA 的精確匹配率。我們報告了 FLORES 的 BLEU 分數。
英文評估結果
基準測試 |
Helium-1 |
HF SmolLM2 (1.7B) |
Gemma-2 (2.6B) |
Llama-3.2 (3B) |
Qwen2.5 (1.5B) |
MMLU |
52.0 |
50.4 |
53.1 |
56.6 |
61.0 |
NQ |
16.5 |
15.1 |
17.7 |
22.0 |
13.1 |
TQA |
46.5 |
45.4 |
49.9 |
53.6 |
35.9 |
ARC E |
82.2 |
81.8 |
81.1 |
84.6 |
89.7 |
ARC C |
64.6 |
64.7 |
66.0 |
69.0 |
77.2 |
OBQA |
65.4 |
61.4 |
64.6 |
68.4 |
73.8 |
CSQA |
63.6 |
59.0 |
64.4 |
65.4 |
72.4 |
PIQA |
78.5 |
77.7 |
79.8 |
78.9 |
76.0 |
SIQA |
62.3 |
57.5 |
61.9 |
63.8 |
68.7 |
HS |
73.6 |
73.2 |
74.7 |
76.9 |
67.5 |
WG |
66.9 |
65.6 |
71.2 |
72.0 |
64.8 |
平均 |
61.1 |
59.3 |
62.2 |
64.7 |
63.6 |
多語言評估結果
基準測試 |
Helium-1 |
Gemma-2 (2.6B) |
Llama-3.2 (3B) |
ARC E |
71.1 |
65.8 |
68.2 |
ARC C |
54.8 |
51.1 |
52.6 |
MMLU |
44.8 |
43.1 |
45.3 |
HS |
51.9 |
49.9 |
48.4 |
FLORES |
20.6 |
21.9 |
19.8 |
MKQA |
16.5 |
17.2 |
19.7 |
平均 |
43.3 |
41.5 |
42.3 |
🔧 技術細節
模型架構和目標
超參數 |
值 |
模型維度 |
2048 |
MLP 維度 |
8192 |
層數 |
28 |
頭數 |
16 |
RoPE theta |
20,000 |
上下文大小 |
4096 |
最大學習率 |
2.4e-04 |
總步數 |
500,000 |
權重衰減 |
0.1 |
梯度裁剪 |
1.0 |
硬件
該模型在 64 個 NVIDIA H100 Tensor Core GPU 上進行訓練。
軟件
該模型使用 Jax 進行訓練。
📄 許可證
CC-BY-SA 4.0
📖 引用
博客文章:Helium 1: a modular and multilingual LLM。