🚀 Granite-7b-base模型
Granite-7b-base是IBM发布的一款基础预训练大语言模型,属于Granite模型系列。它基于Meta的Llama-2-7B架构,在IBM精心策划的数据上从头开始预训练,以开放参考实现的形式,遵循Apache-2.0许可供社区和商业使用。
✨ 主要特性
- 模型架构:复刻了Meta的Llama2 - 7B基础变体架构,采用MHA(多头注意力机制),在2T令牌上以100万个批次大小进行训练。
- 上下文长度:支持4k令牌的上下文长度。
- 分词器:使用Llama2分词器。
- 模型开发者:由IBM Research开发。
📦 安装指南
文档未提供安装步骤,暂不展示。
📚 详细文档
预训练数据
该模型在2T令牌上进行训练,采样比例设计为尽可能接近Llama1论文中公布的采样分布。
数据集 |
描述 |
采样比例 |
URL |
Common Crawl |
开放的网络爬虫数据仓库,快照时间范围从2021年到2023年。 |
77% |
https://data.commoncrawl.org/ |
Github_Clean |
来自CodeParrot的代码数据,涵盖多种编程语言。 |
5.50% |
https://huggingface.co/datasets/codeparrot/github-code-clean |
Wikipedia and Wikimedia |
八个维基媒体项目(英文维基百科、英文维基教科书、英文维基新闻等),包含从页面和文章中提取的纯文本。 |
2% |
https://dumps.wikimedia.org |
USPTO |
1975年至2023年5月授予的美国专利,不包括设计专利。 |
5% |
https://bulkdata.uspto.gov/ |
PubMed Central |
生物医学和生命科学论文。 |
1.75% |
https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/ |
arXiv |
超过180万篇发布在arXiv上的科学论文预印本。 |
2.50% |
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T |
StackExchange |
Stack Exchange网络上所有用户贡献内容的匿名集合,这是一个围绕用户贡献的问答网站集合。 |
1% |
https://archive.org/details/stackexchange_20221206 |
PG19 |
一个免费电子书仓库,专注于美国版权已过期的旧作品。 |
0.25% |
https://github.com/google-deepmind/pg19 |
Webhose |
IBM购买的转换为机器可读数据馈送的非结构化网络内容。 |
5% |
N/A |
评估结果
以下是LM - eval Harness的评估得分:
评估指标 |
Llama2 - 7B(基线) |
Granite - 7b - base |
MMLU(零样本) |
0.41 |
0.43 |
MMLU(5 - 样本加权平均) |
0.47 |
0.50 |
Arc挑战 |
0.46 |
0.44 |
Arc简单 |
0.74 |
0.71 |
Boolq |
0.78 |
0.76 |
Copa |
0.87 |
0.83 |
Hellaswag |
0.76 |
0.74 |
Openbookqa |
0.44 |
0.42 |
Piqa |
0.79 |
0.79 |
Sciq |
0.91 |
0.91 |
Winogrande |
0.69 |
0.67 |
Truthfulqa |
0.39 |
0.39 |
GSM8k(8 - 样本) |
0.13 |
0.11 |
偏差、风险和局限性
Granite - 7b - base是一个基础模型,未进行任何安全对齐,因此可能会产生有问题的输出。在缺乏足够的保障措施和基于人类反馈的强化学习(RLHF)的情况下,存在恶意利用这些模型生成虚假信息或有害内容的风险。
⚠️ 重要提示
由于防止这些模型编造内容并非易事,因此强烈建议不要完全依赖特定的语言模型来做出关键决策或获取有影响力的信息。此外,较小的模型是否会因规模和记忆能力的降低,在无根据的生成场景中更容易产生幻觉,目前尚不确定。这是一个活跃的研究领域,我们期待在该领域进行更深入的探索、理解和缓解措施。
训练相关信息
如需了解有关训练此模型的更多信息,请查看博客:https://pytorch.org/blog/maximizing-training/
📄 许可证
本模型采用Apache - 2.0许可证。