🚀 Granite-4.0-Tiny-Base-Preview
Granite-4.0-Tiny-Base-Preview是一款具有70亿参数的混合专家模型(MoE)语言模型,拥有12.8万个标记的上下文窗口。该模型架构采用了Mamba-2,并叠加了softmax注意力机制以增强表达能力,且不使用位置编码,从而实现更好的长度泛化能力。
🚀 快速开始
本模型可用于文本生成任务,如摘要提取、文本分类、信息提取、问答系统等长上下文任务。安装完成后,即可使用示例代码进行推理。
✨ 主要特性
- 多语言支持:支持英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文等多种语言,用户还可以针对其他语言对Granite 4.0模型进行微调。
- 长上下文处理:具备12.8万个标记的上下文窗口,能够处理长文本输入。
- 先进架构:基于仅解码器的密集Transformer架构,核心组件包括GQA和NoPE、采用SwiGLU的MLP、RMSNorm以及共享的输入/输出嵌入。
📦 安装指南
要使用此检查点,你需要从源代码安装transformers
库。
💻 使用示例
基础用法
安装完成后,复制以下代码片段以运行示例。
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "auto"
model_path = "ibm-granite/granite-4.0-tiny-base-preview"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
input_text = "Where is the Thomas J. Watson Research Center located?"
input_tokens = tokenizer(input_text, return_tensors="pt").to(device)
output = model.generate(**input_tokens,
max_length=4000)
output = tokenizer.batch_decode(output)
print(output)
📚 详细文档
评估结果
模型 |
ARC-Challenge |
Hellaswag |
MMLU |
TruthfulQA |
Winogrande |
GSM8K |
DROP |
NQ |
AGIEval |
TriviaQA |
平均 |
Granite-3.3-2B-Base |
47.49 |
73.2 |
54.33 |
40.83 |
70.4 |
50.0 |
32.552 |
24.36 |
38.78 |
63.22 |
49.52 |
Granite-3.3-8B-Base |
50.84 |
80.1 |
63.89 |
52.15 |
74.4 |
59.0 |
36.14 |
36.5 |
49.3 |
78.18 |
58.05 |
Granite-4.0-Tiny-Base-Preview |
54.52 |
75.80 |
57.86 |
44.57 |
71.1 |
49.0 |
41.74 |
28.48 |
42.61 |
67.85 |
53.35 |
模型架构
模型属性 |
2B Dense |
8B Dense |
Granite-4.0-Tiny-Base-Preview |
嵌入大小 |
2048 |
4096 |
1536 |
层数 |
40 |
40 |
40 |
注意力头大小 |
64 |
128 |
128 |
注意力头数量 |
32 |
32 |
12 |
KV头数量 |
8 |
8 |
4 |
MLP隐藏大小 |
8192 |
12800 |
512 |
MLP激活函数 |
SwiGLU |
SwiGLU |
SwiGLU |
初始化标准差 |
0.1 |
0.1 |
0.1 |
序列长度 |
128K |
128K |
128K |
位置嵌入 |
RoPE |
RoPE |
无 |
参数数量 |
25亿 |
81亿 |
67亿 |
活跃参数数量 |
25亿 |
81亿 |
10亿 |
训练标记数量 |
12T |
12T |
2.5T |
训练数据
该模型采用两阶段训练策略,在开源数据和专有数据的混合数据集上进行训练。
- 第一阶段数据:来自不同领域,如网络、代码、学术资源、书籍和数学数据。
- 第二阶段数据:由来自相同领域的高质量数据以及多语言和指令数据精心混合而成。此阶段的目标是提高模型在特定任务上的性能。
基础设施
我们使用IBM的超级计算集群Blue Vela来训练Granite 4.0语言模型,该集群配备了NVIDIA H100 GPU。这个集群为我们在数千个GPU上训练模型提供了可扩展且高效的基础设施。
🔧 技术细节
Granite-4.0-Tiny-Base-Preview基于仅解码器的密集Transformer架构,核心组件包括GQA和NoPE、采用SwiGLU的MLP、RMSNorm以及共享的输入/输出嵌入。
📄 许可证
本项目采用Apache 2.0许可证。
⚠️ 重要提示
使用大语言模型涉及风险和伦理考量,包括但不限于偏差与公平性、错误信息和自主决策等问题。Granite-4.0-Tiny-Base-Preview模型也不例外。尽管该模型适用于多种生成式AI任务,但它尚未进行任何安全对齐,因此可能会产生有问题的输出。此外,由于较小的模型尺寸和记忆能力,它们在生成场景中是否更容易逐字复制训练数据集中的文本而产生幻觉,目前仍不确定。这是当前的一个活跃研究领域,我们预计将在该领域进行更深入的探索、理解和缓解措施。我们敦促社区以符合道德的意图和负责任的方式使用Granite-4.0-Tiny-Base-Preview模型。
💡 使用建议
- 若要使用此模型,请按照安装指南从源代码安装
transformers
库。
- 在运行代码示例时,可根据需要修改输入文本。
- 关注模型的评估结果,了解其在不同任务上的性能表现。
📚 相关资源