模型简介
模型特点
模型能力
使用案例
🚀 NB-GPT-J-6B
NB-GPT-J-6B 是 GPT-J 6B 的挪威语微调版本,可用于挪威语文本生成任务,为挪威语相关的下游任务提供有力支持。
🚀 快速开始
此模型可使用 AutoModelForCausalLM
功能轻松加载:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")
✨ 主要特性
- 挪威语微调:基于 GPT-J 6B 进行挪威语微调,更适配挪威语场景。
- 参数丰富:拥有 60 亿可训练参数,具备强大的语言理解和生成能力。
- 特定架构设计:采用特定的超参数设置和位置编码方式,提升模型性能。
📚 详细文档
模型描述
NB-GPT-J-6B 是 GPT-J 6B 的挪威语微调版本,GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 训练的变压器模型。“GPT-J” 指的是模型类别,“6B” 表示可训练参数的数量(60 亿参数)。
* 每层由一个前馈块和一个自注意力块组成。
† 尽管嵌入矩阵大小为 50400,但 GPT - 2 分词器仅使用 50257 个条目。
该模型由 28 层组成,模型维度为 4096,前馈维度为 16384。模型维度分为 16 个头,每个头的维度为 256。旋转位置嵌入 (RoPE) 应用于每个头的 64 个维度。该模型使用 50257 的分词词汇表进行训练,使用与 GPT - 2/GPT - 3 相同的 BPE 集。
训练数据
NB-GPT-J-6B 在 NCC(挪威大型语料库)以及其他互联网来源(如维基百科、mC4 和 OSCAR)上进行了微调。
训练过程
该模型在 TPU v3 - 8 VM 上对 1300 亿个标记进行了 100 万步的微调。它作为自回归语言模型进行训练,使用交叉熵损失来最大化正确预测下一个标记的可能性。
使用目的和局限性
使用目的
NB-GPT-J-6B 学习挪威语的内部表示,可用于提取对下游任务有用的特征。然而,该模型最擅长的是根据提示生成文本。
局限性和偏差
- 准确性问题:与原始 GPT - J 模型一样,NB-GPT-J-6B 的核心功能是获取一串文本并预测下一个标记。虽然语言模型广泛用于其他任务,但这项工作存在很多未知因素。在向 NB-GPT-J-6B 提供提示时,重要的是要记住,统计上最可能的下一个标记通常不是产生最 “准确” 文本的标记。绝不要依赖 NB-GPT-J-6B 来产生事实准确的输出。
- 不良内容问题:原始 GPT - J 在 Pile 数据集上进行训练,该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据使用情况,GPT - J 可能会产生社会不可接受的文本。有关 Pile 中偏差的更详细分析,请参阅 Pile 论文的第 5 节和第 6 节。对用于微调的语料库中包含的偏差的细粒度分析仍在进行中。
- 不可预测性:与所有语言模型一样,很难提前预测 NB-GPT-J-6B 对特定提示的响应方式,并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行策划或过滤,以审查不良内容并提高结果质量。
评估结果
我们仍需找到合适的数据集来评估该模型,因此欢迎提供帮助!
📄 许可证
本项目采用 apache - 2.0
许可证。
🔧 技术细节
引用信息
BibTeX 条目
若要引用此模型或使用的语料库,请使用以下 BibTeX 条目:
@inproceedings{kummervold2021operationalizing,
title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
pages={20--29},
year={2021},
url={https://aclanthology.org/2021.nodalida-main.3/}
}
如果您使用了此模型,我们很乐意了解相关情况!您可以通过 Twitter、GitHub、Discord 联系我们,或给我们发送电子邮件。
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良失真。当第三方使用这些模型(或基于这些模型的系统)向其他方部署或提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。在任何情况下,模型所有者(挪威国家图书馆)均不对第三方使用这些模型产生的任何结果负责。
致谢
如果没有 Google 通过 TPU 研究云 慷慨提供的计算资源,以及 Cloud TPU 团队提前提供 Cloud TPU VM Alpha 版本的使用权限,这个项目是不可能完成的。特别感谢 Stella Biderman 的开放态度,以及 Ben Wang 提供的主要代码库。
版本发布信息
- 发布 ✨v1✨ (2023 年 1 月 18 日) 全精度、分片、半精度 和 mesh - transformers - jax 权重
所有检查点
- **发布 v1beta5** (2022 年 12 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-float16) 权重* - **发布 v1beta4** (2022 年 10 月 28 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-float16) 权重* - **发布 v1beta3** (2022 年 8 月 8 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-float16) 权重* - **发布 v1beta2** (2022 年 6 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2-float16) 权重* - **发布 v1beta1** (2022 年 4 月 28 日) *[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta1-float16) 权重*演示地址
点击此处查看演示 (请耐心等待,它在 CPU 上运行 😅)



