🚀 Granite-4.0-Tiny-Base-Preview
Granite-4.0-Tiny-Base-Preview是一款具有70億參數的混合專家模型(MoE)語言模型,擁有12.8萬個標記的上下文窗口。該模型架構採用了Mamba-2,併疊加了softmax注意力機制以增強表達能力,且不使用位置編碼,從而實現更好的長度泛化能力。
🚀 快速開始
本模型可用於文本生成任務,如摘要提取、文本分類、信息提取、問答系統等長上下文任務。安裝完成後,即可使用示例代碼進行推理。
✨ 主要特性
- 多語言支持:支持英語、德語、西班牙語、法語、日語、葡萄牙語、阿拉伯語、捷克語、意大利語、韓語、荷蘭語和中文等多種語言,用戶還可以針對其他語言對Granite 4.0模型進行微調。
- 長上下文處理:具備12.8萬個標記的上下文窗口,能夠處理長文本輸入。
- 先進架構:基於僅解碼器的密集Transformer架構,核心組件包括GQA和NoPE、採用SwiGLU的MLP、RMSNorm以及共享的輸入/輸出嵌入。
📦 安裝指南
要使用此檢查點,你需要從源代碼安裝transformers
庫。
💻 使用示例
基礎用法
安裝完成後,複製以下代碼片段以運行示例。
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "auto"
model_path = "ibm-granite/granite-4.0-tiny-base-preview"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
input_text = "Where is the Thomas J. Watson Research Center located?"
input_tokens = tokenizer(input_text, return_tensors="pt").to(device)
output = model.generate(**input_tokens,
max_length=4000)
output = tokenizer.batch_decode(output)
print(output)
📚 詳細文檔
評估結果
模型 |
ARC-Challenge |
Hellaswag |
MMLU |
TruthfulQA |
Winogrande |
GSM8K |
DROP |
NQ |
AGIEval |
TriviaQA |
平均 |
Granite-3.3-2B-Base |
47.49 |
73.2 |
54.33 |
40.83 |
70.4 |
50.0 |
32.552 |
24.36 |
38.78 |
63.22 |
49.52 |
Granite-3.3-8B-Base |
50.84 |
80.1 |
63.89 |
52.15 |
74.4 |
59.0 |
36.14 |
36.5 |
49.3 |
78.18 |
58.05 |
Granite-4.0-Tiny-Base-Preview |
54.52 |
75.80 |
57.86 |
44.57 |
71.1 |
49.0 |
41.74 |
28.48 |
42.61 |
67.85 |
53.35 |
模型架構
模型屬性 |
2B Dense |
8B Dense |
Granite-4.0-Tiny-Base-Preview |
嵌入大小 |
2048 |
4096 |
1536 |
層數 |
40 |
40 |
40 |
注意力頭大小 |
64 |
128 |
128 |
注意力頭數量 |
32 |
32 |
12 |
KV頭數量 |
8 |
8 |
4 |
MLP隱藏大小 |
8192 |
12800 |
512 |
MLP激活函數 |
SwiGLU |
SwiGLU |
SwiGLU |
初始化標準差 |
0.1 |
0.1 |
0.1 |
序列長度 |
128K |
128K |
128K |
位置嵌入 |
RoPE |
RoPE |
無 |
參數數量 |
25億 |
81億 |
67億 |
活躍參數數量 |
25億 |
81億 |
10億 |
訓練標記數量 |
12T |
12T |
2.5T |
訓練數據
該模型採用兩階段訓練策略,在開源數據和專有數據的混合數據集上進行訓練。
- 第一階段數據:來自不同領域,如網絡、代碼、學術資源、書籍和數學數據。
- 第二階段數據:由來自相同領域的高質量數據以及多語言和指令數據精心混合而成。此階段的目標是提高模型在特定任務上的性能。
基礎設施
我們使用IBM的超級計算集群Blue Vela來訓練Granite 4.0語言模型,該集群配備了NVIDIA H100 GPU。這個集群為我們在數千個GPU上訓練模型提供了可擴展且高效的基礎設施。
🔧 技術細節
Granite-4.0-Tiny-Base-Preview基於僅解碼器的密集Transformer架構,核心組件包括GQA和NoPE、採用SwiGLU的MLP、RMSNorm以及共享的輸入/輸出嵌入。
📄 許可證
本項目採用Apache 2.0許可證。
⚠️ 重要提示
使用大語言模型涉及風險和倫理考量,包括但不限於偏差與公平性、錯誤信息和自主決策等問題。Granite-4.0-Tiny-Base-Preview模型也不例外。儘管該模型適用於多種生成式AI任務,但它尚未進行任何安全對齊,因此可能會產生有問題的輸出。此外,由於較小的模型尺寸和記憶能力,它們在生成場景中是否更容易逐字複製訓練數據集中的文本而產生幻覺,目前仍不確定。這是當前的一個活躍研究領域,我們預計將在該領域進行更深入的探索、理解和緩解措施。我們敦促社區以符合道德的意圖和負責任的方式使用Granite-4.0-Tiny-Base-Preview模型。
💡 使用建議
- 若要使用此模型,請按照安裝指南從源代碼安裝
transformers
庫。
- 在運行代碼示例時,可根據需要修改輸入文本。
- 關注模型的評估結果,瞭解其在不同任務上的性能表現。
📚 相關資源