Granite-4.0-Tiny-Base-Preview开源语言模型 - 长文本处理能力强，免费可用！

首页

Granite 4.0 Tiny Base Preview

由 ibm-granite 开发

Granite-4.0-Tiny-Base-Preview 是IBM开发的70亿参数混合专家(MoE)语言模型，具有128k token上下文窗口，采用Mamba-2技术增强表达能力。

大型语言模型

Transformers

开源协议:Apache-2.0 #128k长文本处理 #混合专家架构 #12语种支持

下载量 156

发布时间 : 4/30/2025

模型简介

该模型是多语言大语言模型，适用于文本生成、信息抽取等任务，可作为基础模型针对特定场景进行微调。

模型特点

超长上下文处理

支持128k token的上下文窗口，适合处理长文档和理解复杂上下文

混合专家架构

采用MoE架构提高模型效率，在保持性能的同时减少计算资源消耗

多语言支持

原生支持12种语言，并可针对其他语言进行微调

无位置编码设计

采用NoPE技术实现更好的长度泛化能力

模型能力

文本生成

文本摘要

信息抽取

问答系统

多语言处理

长文本理解

使用案例

内容生成

自动摘要生成

对长文档生成简洁准确的摘要

多语言内容创作

用多种语言生成营销文案、产品描述等内容

信息处理

文档问答系统

从长文档中提取准确答案

知识抽取

从非结构化文本中提取结构化信息

🚀 Granite-4.0-Tiny-Base-Preview

Granite-4.0-Tiny-Base-Preview是一款具有70亿参数的混合专家模型（MoE）语言模型，拥有12.8万个标记的上下文窗口。该模型架构采用了Mamba-2，并叠加了softmax注意力机制以增强表达能力，且不使用位置编码，从而实现更好的长度泛化能力。

🚀 快速开始

本模型可用于文本生成任务，如摘要提取、文本分类、信息提取、问答系统等长上下文任务。安装完成后，即可使用示例代码进行推理。

✨ 主要特性

多语言支持：支持英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文等多种语言，用户还可以针对其他语言对Granite 4.0模型进行微调。
长上下文处理：具备12.8万个标记的上下文窗口，能够处理长文本输入。
先进架构：基于仅解码器的密集Transformer架构，核心组件包括GQA和NoPE、采用SwiGLU的MLP、RMSNorm以及共享的输入/输出嵌入。

📦 安装指南

要使用此检查点，你需要从源代码安装transformers库。

HuggingFace PR：https://github.com/huggingface/transformers/pull/37658
从源代码安装transformers：https://huggingface.co/docs/transformers/en/installation#install-from-source

💻 使用示例

基础用法

安装完成后，复制以下代码片段以运行示例。

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "auto"
model_path = "ibm-granite/granite-4.0-tiny-base-preview"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
input_text = "Where is the Thomas J. Watson Research Center located?"
# tokenize the text
input_tokens = tokenizer(input_text, return_tensors="pt").to(device)
# generate output tokens
output = model.generate(**input_tokens,
                        max_length=4000)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# print output
print(output)

📚 详细文档

评估结果

模型	ARC-Challenge	Hellaswag	MMLU	TruthfulQA	Winogrande	GSM8K	DROP	NQ	AGIEval	TriviaQA	平均
Granite-3.3-2B-Base	47.49	73.2	54.33	40.83	70.4	50.0	32.552	24.36	38.78	63.22	49.52
Granite-3.3-8B-Base	50.84	80.1	63.89	52.15	74.4	59.0	36.14	36.5	49.3	78.18	58.05
Granite-4.0-Tiny-Base-Preview	54.52	75.80	57.86	44.57	71.1	49.0	41.74	28.48	42.61	67.85	53.35

模型架构

模型属性	2B Dense	8B Dense	Granite-4.0-Tiny-Base-Preview
嵌入大小	2048	4096	1536
层数	40	40	40
注意力头大小	64	128	128
注意力头数量	32	32	12
KV头数量	8	8	4
MLP隐藏大小	8192	12800	512
MLP激活函数	SwiGLU	SwiGLU	SwiGLU
初始化标准差	0.1	0.1	0.1
序列长度	128K	128K	128K
位置嵌入	RoPE	RoPE	无
参数数量	25亿	81亿	67亿
活跃参数数量	25亿	81亿	10亿
训练标记数量	12T	12T	2.5T

训练数据

该模型采用两阶段训练策略，在开源数据和专有数据的混合数据集上进行训练。

第一阶段数据：来自不同领域，如网络、代码、学术资源、书籍和数学数据。
第二阶段数据：由来自相同领域的高质量数据以及多语言和指令数据精心混合而成。此阶段的目标是提高模型在特定任务上的性能。

基础设施

我们使用IBM的超级计算集群Blue Vela来训练Granite 4.0语言模型，该集群配备了NVIDIA H100 GPU。这个集群为我们在数千个GPU上训练模型提供了可扩展且高效的基础设施。

🔧 技术细节

Granite-4.0-Tiny-Base-Preview基于仅解码器的密集Transformer架构，核心组件包括GQA和NoPE、采用SwiGLU的MLP、RMSNorm以及共享的输入/输出嵌入。

📄 许可证

本项目采用Apache 2.0许可证。

⚠️ 重要提示

使用大语言模型涉及风险和伦理考量，包括但不限于偏差与公平性、错误信息和自主决策等问题。Granite-4.0-Tiny-Base-Preview模型也不例外。尽管该模型适用于多种生成式AI任务，但它尚未进行任何安全对齐，因此可能会产生有问题的输出。此外，由于较小的模型尺寸和记忆能力，它们在生成场景中是否更容易逐字复制训练数据集中的文本而产生幻觉，目前仍不确定。这是当前的一个活跃研究领域，我们预计将在该领域进行更深入的探索、理解和缓解措施。我们敦促社区以符合道德的意图和负责任的方式使用Granite-4.0-Tiny-Base-Preview模型。