nb - gpt - j - 6B开源模型 - 支持免费部署的挪威语文本处理好帮手

首页

Nb Gpt J 6B

由 NbAiLab 开发

基于GPT-J 6B的挪威语微调版本，60亿参数规模的Transformer模型

大型语言模型

Transformers

其他开源协议:Apache-2.0 #挪威语生成 #大参数语言模型 #自回归文本生成

下载量 479

发布时间 : 3/2/2022

模型简介

NB-GPT-J-6B是一个针对挪威语优化的自回归语言模型，主要用于文本生成任务。它基于GPT-J架构，在挪威语语料上进行了微调。

模型特点

挪威语优化

专门针对挪威语进行了微调，支持书面挪威语和新挪威语两种变体

大规模参数

拥有60亿可训练参数，具备强大的语言理解和生成能力

长上下文支持

支持2048个token的上下文长度，适合处理较长文本

旋转位置嵌入

采用RoPE(Rotary Position Embedding)位置编码，提升模型性能

模型能力

挪威语文本生成

语言理解

文本补全

对话生成

使用案例

内容创作

挪威语文章生成

根据提示生成挪威语文章或段落

教育

挪威语学习辅助

帮助学习挪威语的学生生成练习材料

🚀 NB-GPT-J-6B

NB-GPT-J-6B 是 GPT-J 6B 的挪威语微调版本，可用于挪威语文本生成任务，为挪威语相关的下游任务提供有力支持。

🚀 快速开始

此模型可使用 AutoModelForCausalLM 功能轻松加载：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")

✨ 主要特性

挪威语微调：基于 GPT-J 6B 进行挪威语微调，更适配挪威语场景。
参数丰富：拥有 60 亿可训练参数，具备强大的语言理解和生成能力。
特定架构设计：采用特定的超参数设置和位置编码方式，提升模型性能。

📚 详细文档

模型描述

NB-GPT-J-6B 是 GPT-J 6B 的挪威语微调版本，GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 训练的变压器模型。“GPT-J” 指的是模型类别，“6B” 表示可训练参数的数量（60 亿参数）。

| 超参数 | 值 | | ---- | ---- | | \\(n_{parameters}\\) | 6053381344 | | \\(n_{layers}\\) | 28* | | \\(d_{model}\\) | 4096 | | \\(d_{ff}\\) | 16384 | | \\(n_{heads}\\) | 16 | | \\(d_{head}\\) | 256 | | \\(n_{ctx}\\) | 2048 | | \\(n_{vocab}\\) | 50257/50400†（与 GPT - 2/3 使用相同的分词器） | | 位置编码 | [旋转位置嵌入 (RoPE)](https://arxiv.org/abs/2104.09864) | | RoPE 维度 | [64](https://github.com/kingoflolz/mesh-transformer-jax/blob/f2aa66e0925de6593dcbb70e72399b97b4130482/mesh_transformer/layers.py#L223) |

* 每层由一个前馈块和一个自注意力块组成。

† 尽管嵌入矩阵大小为 50400，但 GPT - 2 分词器仅使用 50257 个条目。

该模型由 28 层组成，模型维度为 4096，前馈维度为 16384。模型维度分为 16 个头，每个头的维度为 256。旋转位置嵌入 (RoPE) 应用于每个头的 64 个维度。该模型使用 50257 的分词词汇表进行训练，使用与 GPT - 2/GPT - 3 相同的 BPE 集。

训练数据

NB-GPT-J-6B 在 NCC（挪威大型语料库）以及其他互联网来源（如维基百科、mC4 和 OSCAR）上进行了微调。

训练过程

该模型在 TPU v3 - 8 VM 上对 1300 亿个标记进行了 100 万步的微调。它作为自回归语言模型进行训练，使用交叉熵损失来最大化正确预测下一个标记的可能性。

使用目的和局限性

使用目的

NB-GPT-J-6B 学习挪威语的内部表示，可用于提取对下游任务有用的特征。然而，该模型最擅长的是根据提示生成文本。

局限性和偏差

准确性问题：与原始 GPT - J 模型一样，NB-GPT-J-6B 的核心功能是获取一串文本并预测下一个标记。虽然语言模型广泛用于其他任务，但这项工作存在很多未知因素。在向 NB-GPT-J-6B 提供提示时，重要的是要记住，统计上最可能的下一个标记通常不是产生最 “准确” 文本的标记。绝不要依赖 NB-GPT-J-6B 来产生事实准确的输出。
不良内容问题：原始 GPT - J 在 Pile 数据集上进行训练，该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据使用情况，GPT - J 可能会产生社会不可接受的文本。有关 Pile 中偏差的更详细分析，请参阅 Pile 论文的第 5 节和第 6 节。对用于微调的语料库中包含的偏差的细粒度分析仍在进行中。
不可预测性：与所有语言模型一样，很难提前预测 NB-GPT-J-6B 对特定提示的响应方式，并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行策划或过滤，以审查不良内容并提高结果质量。

评估结果

我们仍需找到合适的数据集来评估该模型，因此欢迎提供帮助！

📄 许可证

本项目采用 apache - 2.0 许可证。

🔧 技术细节

引用信息

BibTeX 条目

若要引用此模型或使用的语料库，请使用以下 BibTeX 条目：

@inproceedings{kummervold2021operationalizing,
  title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
  author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
  booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
  pages={20--29},
  year={2021},
  url={https://aclanthology.org/2021.nodalida-main.3/}
}

如果您使用了此模型，我们很乐意了解相关情况！您可以通过 Twitter、GitHub、Discord 联系我们，或给我们发送电子邮件。

免责声明

本仓库中发布的模型旨在用于通用目的，并可供第三方使用。这些模型可能存在偏差和/或其他不良失真。当第三方使用这些模型（或基于这些模型的系统）向其他方部署或提供系统和/或服务，或成为模型的用户时，他们应注意，减轻使用带来的风险并遵守适用法规（包括有关人工智能使用的法规）是他们的责任。在任何情况下，模型所有者（挪威国家图书馆）均不对第三方使用这些模型产生的任何结果负责。

致谢

如果没有 Google 通过 TPU 研究云慷慨提供的计算资源，以及 Cloud TPU 团队提前提供 Cloud TPU VM Alpha 版本的使用权限，这个项目是不可能完成的。特别感谢 Stella Biderman 的开放态度，以及 Ben Wang 提供的主要代码库。

版本发布信息

发布 ✨v1✨ (2023 年 1 月 18 日) 全精度、分片、半精度和 mesh - transformers - jax 权重

所有检查点

- **发布 v1beta5** (2022 年 12 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-float16) 权重* - **发布 v1beta4** (2022 年 10 月 28 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-float16) 权重* - **发布 v1beta3** (2022 年 8 月 8 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-float16) 权重* - **发布 v1beta2** (2022 年 6 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2-float16) 权重* - **发布 v1beta1** (2022 年 4 月 28 日) *[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta1-float16) 权重*